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« T E NE PEUX PAS me tromper au sujet de 
tJ 12 x 12 = 144. Et on ne peut pas opposer 
la surete de la mathematique au relatif manque 
de surete de propositions empiriques. En effet la 
proposition mathematique a ete obtenue par une 
serie d’actions qui ne se differencient d’aucune fagon 
du reste des actions de la vie et qui sont tout aussi 
sujettes a l’oubli, 1’ inadvertence et l’illusion. » 


Wittgenstein, De la certitude. 


« "P^XIEU est une hypothese dont je n’ai pas eu 
I y besoin. » 


Laplace. 
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Premiere partie 


VARIABLES ALEATOIRES 
ET LOIS DE PROBABILITY 



1 


Rappels d ’integration — Variables 

aleatoires 


1.1 Probability 

Definition 1.1 — Une experience aleatoire se decrit mathematiquement par la 
donnee d’un ensemble qui represente les resultats possibles de I’experience. On le note 
fi. On note u> un resultat possible (ou epreuve, issue, realisation, eventuality, evenement. 
elementaire) . 


Definition 1.2 — Un evenement aleatoire A sera toujours represente par V ensemble 
des resultats u de I’experience qui le realise. 

A = {iv | A est realise si co est le resultat de V experience] . 

A est realise si le resultat de I’experience u> appartient a A. 


Definition 1.3 — Une famille C de sous-ensembles de O est une algebre sur si 

1. O gC; 

2. C est stable par intersections finies ; 

3. C est stable par complementarity . 


On definit une algebre d’evenements A . 

Definition 1.4 — Une probability P sur (f l, A) — oil A est une algebre sur f l - est 
une application additive de A dans [0,1] telle que P (Ul)=l. 


P(dUB) = P(4) + P(B)-P(4flB). 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Definition 1.5 — Pour definir une probability sur (f2, A), il suffit de se donner une 
famille de nombres p(u >) ^ 0 telle que 

Ep(M) = 1 • 


On pose 

p(A) = 5>(M) ■ 

oj £ A 


* 

1.2 Echantillonnage 


Soit S une population de taille N : S = {si,S2, . . . , Sn}- 


Definition 1.6 — On appelle echantillon de taille r une suite ordonnde (s^, . . . , Sj r ) 
de r elements de S. 


Proposition 1.1 — Le cardinal de V ensemble des echantillons de taille r avec repe- 
tition (replacement) vaut 


Card n r N = N r . 


Proposition 1.2 — Le cardinal de V ensemble des echantillons de taille r sans repe- 
tition vaut 

Card IY n = N x (TV — 1) x • • • x (N — r + 1) 

N\ 

(N — r)! 


Definition 1.7 — On appelle sous-population de taille r de S tout ensemble de r 
elements distincts choisis dans S. 


Le cardinal de l’ensemble des sous-populations vaut 


Card f V N 


N x (N - 1) x • • • x (N 
r\ 

r 


r + 1) 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


1.3 Variable aleatoire — Loi de probability 

Definition 1.8 — On appelle espace de probability le triplet (f l, A, P) oil : 

Ll est V ensemble des realisations ; 

A est une tribu sur Ll ; 

P est une probability sur A, i.e. une fonction de A dans [0,1] cr-additive telle que 
P(f Y)=l. 


Definition 1.9 — Une variable aleatoire discrete X (i.e. dont V 'ensemble des 
valeurs est denombrable) est une application de (f2, A) dans E denombrable, telle que 
\/x e E, 


{X = x} = {u € ft | X(u>) = a;} 

= r‘({®})e^. 


Definition 1.10 — La famille de nombres Px(ar) 

probability de X. 


P(X = x) est appelee loi de 


Definition 1.11 — On appelle probability conditionnelle de B sachant A 


P (B | A) 


P(A n b) 
P(A) 


Proposition 1.3 — VA, . . . , A n £ A tels que P(A], D • • • fl A n ) > 0, 

P(Ai n • • • n An) = P(Ai) x P (A 2 I Ax) x P(A 3 I Ax n A 2 ) x • • • x P (A n \ Ax n • • • fl A.- 1 ) ■ 


Theoreme 1.1 (Bayes) — Nous avons : 


a) 


P {B | A) 


P (B) ■ P {A | B) 

P (B) ■ P(A | B) + ¥(B) ■ P (A | B) ' 


b) soit (Ex, • • • , E n ) une partition de O, pour laquelle P(-Ej) > 0. Soit A G A tel que 
P(A) > 0 ; alors Hi, 


P (Ei | A) 


P (Ei) ■ P(A | E^ 
Z k P(E k )-P(A\E k ) ■ 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Definition 1.12 — A et B sont deux evenements independants si 

P {APB) = P(A) -P {B) , 

i.e. si P (B | A) = P(£?) si P(A) ^ 0. Ceci signifie que la realisation de A ne donne aucune 
information sur la realisation possible de B. 


Lemme 1.1 — Si A et B sont independants, alors A et B c , A c et B, A c et B c le sont 
egalement. 


Definition 1.13 — Une suite finie Ai , . . . , A n d’evenements est dite independante si 
quelle que soit la suite extraite ii , . . . , ik, 


i=i 


n Ai,) = nn^) 


Proposition 1.4 — Ai, . . . , A n forment une suite d'6v6nements independants si \/Di £ 

{Ai, A\, 0, O}, 

/ n \ n 

riA) = nw) • 


1.4 Proprietes elementaires des probabilites 


Rappels — P : (f2, A) — > [0, 1] est une probabilite si P est cr-additive, c.-a-d. si P 
est additive et stable par limite croissante, c.-a-d. si P est additive et A n \ 0 =>■ P(^4„) \ 
0, \/A n , c.-a-d. encore si P est additive et VA n \ A, P (A n ) \ P(A). 


Definition 1.14 — Soit ( A n ) n une suite infinie d’dvdnements. Alors 

Bm A n = H U Ak 

n k^n 

= {E 1 ^ 00 } • 


Definition 1.15 — Soit ( A n ) n une suite infinie d’evenements. Alors 

iim A n = [J P) A k 

n n k^n 

= { t.ous les A n sont realises sauf un nombre fini} . 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Proposition 1.5 — Nous avons : 


(lim A n ) c 
(lim A n ) c 


lim Af ; 

lim A c n . 


Proposition 1.6 — Nous avons : 

llim A„ 

llim A„ 


Definition 1.16 — Nous avons : 

An > A O 1 A n > Ia 

lim l^ n = lim 1 a u 
O lim A n = lim A n . 


= limlA„ ; 

= lim l y 4 n . 


Proposition 1.7 — Nous avons : 

lim A n = lim A n => A n — > A = lim A n (= lim A n ) . 


Proposition 1.8 — Soil ( A n ) n une suite d'&v&nements. 

Pf lim A„) ^ limP(A„) ^ limP(A„) ^ P(lim^4„) . 


Proposition 1.9 — On dit qu’une suite infinie ( A n ) n d’evenements sont independants 
si toute sous-famille finie est formde d’dvdnements independants. 


Lenirne 1.2 (Borel-Cantelli) — Soit une suite infinie ( A n ) n d'evenements. 
a) 

^^P(A„) <oo => P(limA„) = 0 . 


b) 


les ( A n ) n forment. une suite independante 1 

£n P ( A «) = 00 J 


P(lim A„) = 1 . 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


1.5 Variables aleatoires 

Proposition 1.10 — X est une v.a. discrete si X est mesurable de (12, A) dans 
(E,V(E)). 


Rappel — Soit C une classe d’ensembles et B = <j(C) la tribu engendree par C. Alors 
a{X-\C])=X-\a(C]). 

V x £ E, {X = i}ed <£=> X _1 (C) C A ou C = {{x}, x £ E} 

A" 1 (a(C))cA. 

Or a(C) = V(E). 

Proposition 1.11 — X : (12, A) — > R est une v.a. reelle si X est mesurable de 
(Cl, A) dans (R, 23(R)). 


Proposition 1.12 — Nous avons : 

X v.a. reelle -o- X fonction borelienne de (12, A) dans R 

<^=> VO ouvert. de R, {X £ O} = X _1 (d2) £ A . 


Proposition 1.13 — Nous avons : 

X v.a. vectorielle <^=> X : (12, A) — > (R d , B{ R d )) 

•o- V « £ {1, . . . , d}, Xi v.a. reelle . 


Proposition 1.14 — L'espace des v.a. est stable par addition, multiplication, passage 
au sup et a l ’inf. Ainsi, si une suite (X n ) n est une suite de v.a., alors lim X„ et limX„ sont. 
des v.a. 


Proposition 1.15 — Soit (X n ) n une suite de v.a. 

{ lim Ab, = limX„} = {w | lim X„ (oj) = limX„(o>)} 

= domaine de convergence de (X n ) n 

et ce domaine appartient. a A. 

De plus, si X n — > X, alors X est une v.a. 


Definition 1.17 — Une propriety des points lo est dite vraie presque surement 
(note p.s.) si I’ensemble ou elle est fausse est contenu dans un evenement. A tel que 
P(A)=0. 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Remarque — Cette notion est l’equivalent du « presque partout » de la theorie de 
l’integration. 


Definition 1.18 — Une v.a. X n converge presque surement vers X si P(lim X n = 

v n 

x) = i. 


Proposition 1.16 — Si (X n ) n est une suite de v.a. reelles telles que 3X v.a. satis fai- 
sant. __ 

Ve > 0, ]TP(|X n -X|>e)<oo, 

n 

alors X n X. 


Definition 1.19 — Une v.a. rdelle est dite etagee si elle ne prend qu’un nombre fini 
de valeurs. X s ’dcrit sous la forme 


X — ^ ^ a A Aj ? 

i—l 


oil Ai = {X = ai}. 


Proposition 1.17 — Toute v.a. positive est limite croissante de v.a. etagees. 


Proposition 1.18 — Toute v.a. reelle est difference de deux v.a. positives : X = 
X+ -X~, ou X+ = sup(X, 0) et X~ = sup(-X, 0). 


1.6 Moment — Esperance 


Definition 1.20 — Soit. (fi, A. P). Soit. X une v.a. reelle. On dit que X admet un 
moment d’ordre 1 si X est une fonction integrable par rapport, a P : 


\X\ dP 


< oo . 


X admet un moment d’ordre q si 

J \X\ q dP < oo . 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Definition 1.21 — On appelle esperance mathematique (moyenne) de la v.a. X 

et on la note E(X) la quantite 

j XdP . 


Theoreme 1.2 (Convergence monotone) — Soil (X n ) n une suite de v.a. positives 
tendant. en croissant vers X. Alors E(X„) tend en croissant vers E(X). 


Remarque — Dans le theoreme precedant, E(X n ) et E(X) peuvent etre infinies. 

Lemme 1.3 (Fatou) — Soil (X n ) n une suite de v.a. positives. Alors 

E(limJT„) ^ lim E(X„) . 


Theoreme 1.3 (Lebesgue — Convergence dominee) — Soit ( X n ) n telle que : 

v p - s \ v . 

Ji-n * J*- ) 

Vn, \X n \ ^ Y, Y ay ant un moment d'ordre 1. 

Alors E(X„) — > E(X). 


Proposition 1.19 — Nous avons : 

E(aX + bY) = a E(X) + b E(F) . 


Proposition 1.20 


E(X) = / P(X > a) da 


A 

1.7 Variance — Covariance — Correlation — Ecart- 
type 


Definition 1.22 — La variance est. definie par 


vpo 


E 


(X-E(X)) 


2 ' 


E(X 2 ) - [Ept)] 2 . 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Definition 1.23 — La covariance entre deux v.a. X etY est definie par 


C ov(X,Y) 


E 


(X-E (X))(Y-E(Y)) 


E(IY) - E(X) • E(Y) . 


Proposition 1.21 — ( X , Y) i— > C ov(X, Y) est bilineaire. 


Interpretation — Si Cov (X, Y) > 0, X et Y sont liees positivement, i.e. elles ont 
tendance & £voluer dans le me me sens. 


Propriety 1.1 — Nous avons 

V (aX + bY ) = a 2 V (Y) + b' 2 V (Y) + 2 ab C ov (X, Y) . 


Propriety 1.2 — Si X etY sont independantes, alors C ov(X, Y) = 0. 
(La reciproque est fausse.) 


Definition 1.24 — Le coefficient de correlation entre X etY est defini par 


p{X, Y) 


C ov(X, Y) 
ax ■ cry 


Propriety 1.3 — Nous avons 


p{X, Y) < 1 . 


Propriety 1.4 — Si \p(X, Y) =1, la liaison est dite complete et lineaire entre X et 
Y : Y = aX + b. 

Si p(X, Y) = 1, alors a > 0. 

Si p(X, Y) = — 1, alors a < 0. 


Definition 1.25 — L'ecart-type est defini par 

a(X) = v'V(X) . 


Theoreme 1.4 (Inegalite de Chebichev) — Nous avons : 

V(X) 


D ^| J E7 — E (JY) | 
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1. RAPPELS D ’INTEGRATION - VARIABLES ALtATOIRES 


Definition 1.26 — Soil X une v.a. de moyenne p, et de variance a 2 . On appelle 

coefficient de variation la quantite 

100 x - . 

a 

Exprimee en pourcentage, elle permet de comparer deux series de moyennes differentes. 
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2 


Lois de probability 


2.1 Lois de variables aleatoires 

Definition 2.1 — On appelle tribu engendree par une v.a. X : 12 — > K 6 * la classe 
cr(X) definie par 


a(X) = X _1 (B(M d )) 

= {{X gA}, lei d } . 


Proposition 2.1 — Soil Y : (12, cr(X)) — * ( , £>(R d )) mesurable. Alors il existe 
une fonction f mesurable de (M d , S(K d )) dans (M d , £>(M d )) telle que Y = f(X). 


Definition 2.2 — On appelle loi de probability de la v.a. X definie sur (12, A. P) et 
a valeurs dans un espace E la probability Px image de P par X. 

On dira que Px est la loi (ou distribution) de X, ou encore que X suit la loi Px- 


Formulation 


Nous avons : 


E ( f{X )) = J 


f(X) dP 
f(x M) dP(w) 
f(x) dPx(x) • 
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2 . LOIS DE PROBABILITY 


puisque, pour f = 1 a, 


E (U(I)) 



P.y(^4) 



(2.1) 


Ceci est vrai pour 1a, done pour les fonctions etagees, et par suite pour les fonctions 
positives (d’apres le theoreme de convergence monotone). 

Proposition 2.2 — Si I’un des deux membres de (2.1) a un sens, alors I’autre en a 
aussi un, et il y a egalite. 


Proposition 2.3 — Si deux probabilites sont egales sur une classe C stable par inter- 
sections finies, alors elles sont egales sur la tribu engendree parC. 


Theoreme 2.1 (Theoreme de la classe monotone) — Soit C C V(Ll) stable par 
intersections finies et contenant LI. 

La plus petite classe monotone (i.e. stable par difference finie et limite croissante) 
contenant C est la tribu engendree parC. 


Definition 2.3 — Soit X et X' deux v.a. On dit qu’elles sont equidistantes si 


Px = Px' et on note X == X' . 


Definition 2.4 — La loi de X est dite symetrique si Px = P_x- 


Definition 2.5 — La fonction de repartition de la v.a. reelle X est definie par 
Vi £ ] — oo, + oo [, 


F x (t) = P (X^t) 

= P_y(] — oo ,f]) . 


Proposition 2.4 — L’application qui a Px associe F\ est injective. 


Proposition 2.5 — Toute fonction de repartition Fx ■ } — oo, + oo[ — > [0,1] satisfait : 

(i) Fx croissante; 

(ii) Fx continue a droite; 
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(in) Fx{t) — > 0 (t — > — oo ) ; 

(iv) F x (t)—> 1 (t->+oo). 

Definition 2.6 — Soit / wne fonction de R. dans [0,1] verifiant (i), (ii), (in) et (iv). 
Alors il existe une v.a. X et done une probability Px qui admettent f comme fonction de 
repartition. 


Definition 2.7 — Les points de discontinuity de F x sont les points charges par P x ■ 


Definition 2.8 — Si Px ne charge aucun point, on dit que la loi de X est. diffuse. 


Proposition 2.6 — Si la loi de X est diffuse, alors F x est continue. 


Lemme 2.1 — L ’ensemble des points charges par une probability est au plus denom- 
brable. 


Proposition 2.7 — Toute probability Px s’ecrit comme somme d’une mesure char- 
geant un ensemble denombrable de points (i.e. mesure discrete) et d’une mesure diffuse. 


Definition 2.9 — On appelle densite de probability sur R d toute fonction borelienne 
positive d’integrale par rapport a la mesure de Lebesgue egale a 1. 

On appelle probability de density f la probability sur (R d , £>(M d )) definie par : VB £ 
B(R d ), 


P (B) = / f(x) dx 

J B 

= [ lBf(x) dx 

Js. d 

= / l B {xi, ■ . . , x d ) /(xi, . . . , x d ) d(xi, . . . , x d ) 

jR d 


Proposition 2.8 — 


Proposition 2.9 — 

de Lebesgue est diffuse. 


Si la probability P sur R. d a pour densites f et g, alors f = g pp. 


Toute probability definie par une densite par rapport a la mesure 


Definition 2.10 — On dit qu’une v.a. X a valeurs dans R d a pour densite p si la loi 
de probability Px a pour densite p sur R. d . 


Probabilities et Statistique 


21 



2 . LOIS DE PROBABILITY 


Definition 2.11 — Soient X une v.a. a valeurs dans R d de densite p, et f une fonction 
borelienne positive de dans R. Alors 


E [ f(X )] 



/( x) dP y (x) 



f(x) p{x) dx . 


Proposition 2.10 — Si X a une densite paire, sa loi est symetrique (i.e. P_y = P_x)- 


Proposition 2.11 — Si la loi de X est symetrique, V/ impaire telle que f(X ) soit 
integrable, E [/(X)] = 0. 


Proposition 2.12 — Soit ( X , Y) un couple de vecteurs aleatoires de dimensions 
respectives d et d! , et ayant une densite p(x, y) par rapport a la mesure de Lebesgue sur 
R d+<i . Alors X et Y ont pour densites respectives 


et 


Px{x ) = / p(x, y)dy 

jR d ' 


Pv(y ) = / P(x, y) dx . 

Js. d 


Definition 2.12 — p(x , y) est appelee loi conjointe de X et Y . Quant a px et py , 
elles sont appelees lois marginales de (respectivement) X et Y . 


Proposition 2.13 (Formule de changement de variables) — Soit X un vecteur 
aleatoire a valeurs dans un ouvert U de M. k . Soit cj> = (cj) i, . . . , <fik) un diffeomorphisme 1 de 
U dans un ouvert V de Soit J ^ son jacobien : 


d<fii 

d<t> l 

dxi 

dx k 


J(f> — 


d(pk 

d<t>k 

dxi 

dxk 


Soit Y = 4>{X). On suppose que X a une densite fx par rapport, a la mesure de Lebesgue 
et Y une densite fy. Alors 


U(X)( X ) 


1 


fx{<t> V)) • 


1. Fonction bijective de classe C 1 . 
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Theoreme 2.2 — Soient X et Y deux v.a. independantes de densites f et g par 
rapport a la mesure de Lebesgue. Alors XY a pour densite 


x 



1 

I y\ 


d y ■ 


2.2 Lois discretes usuelles 

2.2.1 Loi de Bernouilli 

On la note B{p). C’est la representation de l’alternative oui/non : 

X _ f 1 si oui (avec la probability p ) , 

1 0 si non (avec la probability 1 — p). 

La density est : 

P(.Y = x) = p x (l-p) 1 ~ x 
et les premiers moments donnent : 

E(X) = p, 

V(X) = p(l-p). 


2.2.2 Loi binomiale 

On la note B(n , p). C’est la repetition (n fois et de fagon independante) de l’alternative 
precedente. 


La densite est 

P(X = x) = C x p x {l-p) n ~ x 

et les premiers moments donnent 

E(X) = np , 

¥ (X) = np{ 1 — p) . 



n=5 et p=0,3 


Figure 2.1 — Loi binomiale. 
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Proposition 2.14 — Quand n — > oo et p — ► 0 de maniere a ce que np — > A, £>(n, p ) 
"P(A) — qui est une loi de Poisson (voir section suivante). 


2.2.3 Loi de Poisson 

On la note 'P(A), avec A € R + . 


La density est 

e~ x X 

P(X = n) = - — - 
n\ 

et les premiers moments donnent 

E(X) = A , 

V (X) = A . 



“I 1 1 1 1 1 1 r~ 

0 2 4 6 8 10 12 14 

lambda=5 


Figure 2.2 — Loi de Poisson. 


2.2.4 Loi geometrique (ou de Pascal) 

On la note G(p)- Elle represente le nombre d’experiences necessaries pour avoir le pre- 
mier succfes — sachant que la probability de succfes est p. 


La density est 

P(X = x) = pil-p)*- 1 . 
et les premiers moments donnent 


E(X) 

V(X) 


1 

5 

P 

1 ~P 



p=0,3 

Figure 2.3 — Loi geometrique. 
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Proposition 2.15 — Si X suit une loi geometrique, alors 

P(X ^ m + n) = P(X ^ to) x P(X > n) , 


Vn, m gN. 


2.2.5 Loi geometrique generalisee 

On la note 7 Z(n, p). Elle represente le nombre d’exp^riences n^cessaires pour obtenir n 
succfes. 


La densite est 


P(X = x) 

et les premiers moments donnent 

E(X) 


V(X) 


Cl 


1 

1 


p n ( i-v) x - n 


n 

V 

n(l-p) 


2.2.6 Loi hypergeometrique 

On la note H(N, n, p). 

Soient N boules dans une urne reparties comme suit : N x p boules rouges ( p est 
la proportion de boules rouges) et X x (1 — p) boules blanches. On tire n boules et on 
s’interesse au nombre de boules rouges (soit X) sur ces n. 

Si on tire les boules les lines apres les autres avec remise immediate, X -w B(n, p). 

Si le tirage est global, ou si l’on tire les n boules les unes apres les autres sans remise, 
alors il s’agit d’un tirage exhaustif et d’une loi hypergeometrique. 


La densite est 


P(X = x ) 


/-tx f-tn—x 
L Np ' °JV(l-p) 


C 


N 


et les premiers moments donnent 

E(A') = np , 

Y(X) = np(l-p)^— j 



n=3, m=5 et N=4 


Figure 2.4 — Loi hypergeometrique. 


Probabilities et Statistique 


25 


2. LOIS DE PROBABILITY 


Definition 2.13 — 


N — n 
N-l 


est le coefficient d’exhaustivite. 


2.2.7 Loi binomiale negative 

Cette loi admet deux paramfetres : 7' et p (0 ^ p ^ 1), et elle repr^sente la probability 
d’obtenir r — 1 success et x ychecs sur x + r — 1 tentatives. 


La densite est 

P(A' = x) = 


x + r — 1 
r — 1 


P r (i- P y 


et les deux premiers moments donnent 

r (l ~ p) 


E(X) = 


P 

r(l-p) 


V(X) = 

pZ 



Figure 2.5 — Loi binomiale negative. 


2.2.8 Loi discrete 

Les paramfetres sont {xi , . . . , x n }, pi, . . . . p n (Vi, 0 ^ Pi ^ 1). Cette loi reprysente la 
probability d’obtenir l’une quelconque des valeurs {x \, . . . , x n }, sachant que chacune de ces 
valeurs a respectivement la probability p \ 1 . . . , p n d’etre tiree au sort. 

Nous avons : 


P(X = = pi , 

E (X) = ^2 X iPi > 

i 

V(A) = ^2 x iPi- {^2 x iPi) 2 ■ 


2.2.9 Loi multinomiale 

Dans une population de N individus, on distingue r types distincts ; soient 
Ni, N 2 , . . . , N r les nombres respectifs d’individus de type 1,2 r. 

On fait un sondage portant sur n individus : soit Xi la reponse du i e individu. Soit 
enfin 

n 

Z :i = 

i= 1 
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le nombre de reponses de type j. 

Si on effectue le sondage en prelevant globalement un groupe de n individus, il s’agit 
d’un sondage « sans remise » : la loi de {Z\, . . . , Z n ) est alors hypergtiomtitrique. 

On effectue ici un sondage avec remise. Pour j = 1,..., r, posons pj = Nj/N. On 
suppose qu’apres chaque tirage, l’individu interroge est remis dans la population, et que les 
tirages successifs sont indepenants. Les v.a. (Xi,..., X„) sont independantes et P(X, : = 
j) = Pj ■ 

Soit E = {(ii, . . . , i r ) G N r ; ii + ■ ■ ■ + i r = n}. Pour (ii, . . . , i r ) € E, on a : 

Tl\ 

P(Zl = il, Z 2 =i 2 ,...,z r = i r ) = — — pi 1 ... Pr r . 

zi!...z r ! 


Nous avons 


E (Zi) = Npi , 

V (Zi) = Npi(l-pi) 


et 


Co v(Zi,Zj) = —NpiPj . 


2.3 Lois continues usuelles 


2.3.1 Loi uniforme 

On la note U([a, &]). 


Nous avons : 


( 0 si x < a ou x > b 


fix) 


< 5^ si a < x < b 

pas d^finie si x = a ou b 
( 0 si x < a 


F(x) 


E(X) 
V (X) 


< si a ^ x ^ b 

1 si x ^ b 

a+b 
2 ’ 

( b-a ) 2 
12 



Figure 2.6 — Loi uniforme. 
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2.3.2 Loi exponentielle 

On la note £(A), avec A > 0. 


Nous avons : 


f(x) = Ae As: 1r+0) , 
F{x) = 1 - e _Ax l K+ (a;) , 

E(X) = 

VW = y 2 - 



Figure 2.7 — Loi exponentielle. 


Proposition 2.16 

et 


Si X suit une loi exponentielle, X a des moments de tout ordre 


E(AT P ) = — . 
v ’ A p 


Proposition 2.17 — Si X suit une loi exponentielle, 

P(X >a + b\ X>b)= P(X > a) . 
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2.3.3 Loi normale 


On la note Af(n, cr 2 ). Nous avons 


/(*) 

E(A) 

V(A) 


1 

— — e 
(Tv 2 tT 

A* , 


a. La fonction de repartition n’est pas definie. 



mu=0 etsigma=1 


Figure 2.8 — Loi normale. 


Proposition 2.18 — £* A' suit une loi normale, X a des moments de tout ordre. 


Une loi normale A f(fx,a 2 ) verifie : 

68 % de la distribution est dans l’intervalle \/j, — a , fj, + cr] 

95 % de la distribution est dans l’intervalle \/j, — 2a , fi + 2cr] 
99,8 % de la distribution est dans l’intervalle [fj, — 3a , /r + 3<r]. 

2.3.4 Loi de Cauchy 

X suit une loi de Cauchy de parametre 1 si A a pour densite 

1 1 
7 T 1 + X 2 


Elle est portae par R. et est symtitrique. 
Elle n’a pas de moment d ’ordre 1. 



Figure 2.9 — Loi de Cauchy. 
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Nota — Si p = 1, on retrouve la loi exponentielle. 


Rappel — Nous avons : 


et 


T(n +1) = n ! 


r(® + 1) = x T(a;). 


2.3.6 Loi Beta 

On la note /3(p, 8), avec p, 8 > 0. 
Nous avons : 


/ 0*0 
E(X) 
V (X) 


r (p + e ) X P - 1 

T{p).T{8) 


(l-x) e 


P 

P + 8 ’ 

pO 

(/ p + ey (p + e + 1 ) ' 


1 l]o,i[0)- 
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Figure 2.11 — Loi Beta. 


2.3.7 Loi logistique 


Elle admet deux parametres a et b. 
Nous avons : 


P(X < x) 

E(X) 

VpQ 


I expp — a) 


l&l 


1 + r expp — a) 


a, 



Figure 2.12 — Loi logistique. 

Cette loi est sym^trique et unimodale, et elle pr^sente une queue. 


2.3.8 Loi log-normale 


Elle admet deux paramfetres /i et cr 2 (ji r£el quel- 
conque, a 2 r£el positif). 

Nous avons : 


P(X < x) 



exp 


Op) -Q ~ 

2a 2 


E (X) = exp 


(fi + ct 2 )/2 


’(X) = exp(cr 2 + 2/ii) [ exp(cr 2 ) — l] . 



0 12 3 4 

mu=0 etsigma=1 


Figure 2.13 — Loi log-normale. 


Proposition 2.19 — X suit une loi log-normale si log(X) suit une loi normale. 
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2.3.9 Loi du chi-deux 


Elle admet un paramfetre r (positif) et sert essentiel- 
lement h la realisation de tests statistiques. 

Nous avons : 

P(X ^x) = 

E(X) = 

V(X) = 


xz 1 exp(—x/2) 
r(r/2) 2 r / 2 ’ 

r, 

2 r . 



Figure 2.14 — Loi du chi-deux. 

Remarque — II s’agit d’une loi gamma avec p = r/2 et 6 = 1/2. 


2.3.10 Loi normale tronquee 

Elle admet quatre parametres : a, b, p et a 2 (a, b reels quelconques, p £ [a, b] reel et a 2 
reel positif) et consiste en une loi normale restreinte a l’intervalle [a, b]. 

Nous avons : 


E(X) = p, 
V(X) = a 2 . 



a=3, b=8, mu=6 et sigma=1 


Figure 2.15 — Loi normale tronquee. 


2.3.11 Loi de Weibull 

Elle admet deux parametres a, (3. Cette loi est tres utilis^e pour caracteriser la Lability 
des mat^riels. Elle est relive h la loi exponentielle par la relation suivante : X suit une loi 
de Weibull de parametre f3 si X @ suit une loi exponentielle. (3 est le parametre de forme : 
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le cas ou f3 > 1 correspond a un materiel qui se degrade avec le temps (usure) ; 
le cas ou f3 < 1 correspond a un materiel qui se bonifie avec le temps ; 

le cas ou (3 = 1 (la loi est alors une loi exponentielle) correspond a un materiel sans 
usure (pannes purement accidentelles) . 

Nous avons : 

P(X ^ x) = af3~ a x OL ~ 1 exp — (^)“ , 

L p J 

E(x) = /? r(i + — ), 

v a 7 

v(x) = /3 2 |t(i + -) -r 2 (i + -) . 

. a a - 



4 6 

8 

10 

0 

2 

4 6 

8 

10 

rho=0,5 ettheta=3 





rho=0,5 ettheta=0,5 





rho=1 ettheta=1 rho=2 ettheta=5 

Figure 2.16 — Loi de Weibull. 
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2.3.12 Loi triangulaire 


Les parametres sont a, b (reels) et c £ [a, 6] (r6el). 
Nous avons : 


P(X ^ x) 

E(X) 


2 (x—a) 

( b—a)(c—a ) 
2 (b-x) 

( b—a)(b—c ) 

0 sinon, 


si a ^ x ^ c 
si c ^ x ^ b 


1 

3 


(a + b + c). 



Figure 2.17 — Loi triangulaire. 

II s’agit d’une loi flexible portant sur un certain intervalle, et dont le mode est connu. 


2.3.13 Loi de la valeur extreme 

Les distributions de la valeur extreme sont les distributions limites du minimum ou 
du maximum d’un trfes grand ensemble d ’observations altiatoires issues d’une meme loi. 
Notons M n la statistique d’ordre extreme X ^ relative h une distribution de n v.a. X, 
suivant une meme loi. 


Si la loi commune est une loi uniforme sur [0,1]) alors 


0 si x < 0 

P (M n < x) = ^ x n si 0 ^ x < 0 

1 si x > 1 


et dans ce cas, 


E (Mn) = 

V(M n ) = 


n+1 


(n+ l) 2 (n + 2) 

Si la loi commune est une loi normale centree reduite, i.e. 

1 r 


F(x) = 


\fTr; J- c 
1 


2 dt 


= 2 + ^ ’ 

ou <f>(a;) est la fonction de distribution normale, alors 
P(M„ < x) = [F(x)] n 


TT dt 


Probabilities et Statistique 


35 


2. LOIS DE PROBABILITY 


et dans ce cas, 


E (Mi) = 0, 

V (Mi) = 1, 
E( M 2 ) = -L , 


V(M 2 ) 

E(M 3 ) 

V(M 3 ) 


5 

7 r 

3 

’ 

4tt - 9 + 2\/3 
47T 


Un theoreme analogue a celui de la limite centrale etablit que la distribution asympto- 
tique normalisee de M n satisfait l’une des trois distributions de probabilites suivantes : 

1. Loi de Gumbel : 

F(y) = exp(— e _y ) . 


2. Loi de Frechet : 

F(y) 


3. Loi de Weibull : 


0 si y < 0 , 
exp(— y~ a ) si y > 0 . 


F(y) 


exp [ - (-2/)“)] si y < 0 , 
1 si y > 0 . 


Dans le contexte des modeles de fiabilite, les distributions de la valeur extreme pour 
le minimum sont frequemment utilisees. Ainsi, si un systeme consiste en n composantes 
identiques placees en serie, et si le systeme tombe en panne lorsque la premiere de ces 
composantes defaille, alors le temps auquel le systeme tombe en panne est le minimum 
des n temps al^atoires de survenue d’une panne. La thtiorie de la valeur extreme dit que, 
independainment clu choix du module des composantes, le module du systfeme va approcher 
une distribution de Weibull a mesure que n devient tres grand. Le meme raisonnement peut 
etre applique a chacune des composantes du systeme, si nous supposons que la survenue 
d’une panne d’une composante a lieu lorsque la premiere defaillance est due a un mecanisme 
agissant parmi de nombreux m^canismes similaires. 


2.3.14 Loi de Fisher-Tippett (ou log- Weibull) 

Cette distribution est aussi appelee distribution de la valeur extreme. Ses para- 
metres sont a et b. 

Nous avons : 

Ja-x)/b-e t ' a - x),b 

/M = - b , 

F(x) = e -^ a ~ x)/b . 

E (A) = a + 67 , 

V(A) = l -i T 2 b\ 
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ou 7 est la constante cl’Euler-Mascheroni. 


2.3.15 Loi de Fisher 


Ses paramfetres sont ni et ri2- 
Nous avons : 


f(X) 

E(X) 


n i 



n t / 2-1 


( 


1 + 


m2L \ 

n 2 J 


~(n 1 +n 2 )/2 


n 2 B(% , 


n 2 \ 
2 ) 


n 2 

n 2 — 1 



n1=n2=2 


Figure 2.18 — Loi de Fisher. 


2.3.16 Loi de Gumbel 


II s’agit d’un cas particular de la loi de Fisher-Tippett pour a = 0 et b = 1. 


2.3.17 Loi de Pareto 

Ses parametres sont a et b. 

Nous avons : 

f(X) 

F (x) 

E(X) 

V(X) 


ab a 

rg &-\- 1 ^ 



ab 

a — 1 ’ 
ab 2 

(a — l) 2 (a — 2) 


2.3.18 Loi de Laplace 

Ses paramfetres sont /i et b. 

Cette loi de probabilite est aussi appelee distribution exponentielle double. II s’agit 
de la distribution de la difference entre deux variables independantes de meme loi exponen- 
tielle. 


Probabilites et Statistique 


37 




2. LOIS DE PROBABILITY 


Nous avons : 


f(X) 

F(x) 


1 

2b 
1 - 

2 . 


e o , 

1 + sgn(x 



I^-mI 

b 



E(X) = /x, 

Y (X) = 2 b 2 . 
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Generalities 


3.1 Presentation 


Definition 3.1 — (fi, A, P). Soient Bi, . . . , B n des sous-tribus de A. 
B\, . . . , B n independantes <=>• V-B* G Bj, 

x n b * ) = nw) ■ 


Definition 3.2 — : (0, A, P) — * (R d \B(R d *)). 


Xi, . . . , X n independantes 


Bx i , • • • , Bx n independantes 
VAi G B(R d '), 

n \ n 

f]{Xi£ A t }) = JJP(X 4 e Ai) 




i = 1 


Proposition 3.1 — Soient Ci, l < i ^ n, des classes d’ensembles de A, stables par 
intersections finies et contenant f l. Si \/i G {1, . . . , n}, VCj G Ci, 


n^i =np(co , 


alors les tribus cr(Ci), 1 < i ^ n, sont independantes. 
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Proposition 3.2 — Soient Xi : S! — > E avec E denombrable. 


Xi, , X n independantes 


\/Xi) . . . , x n (E E, 

/ n \ n 

=np(* 


Xi) . 


Remarque — Xi independante de X 2 et X\ independante de X 3 n’entraine pas que 
X\ soit independante de {X 2 , X 3 ). 


Proposition 3.3 (Independance par paquets) — Si (Xj)j=i n est une suite de 
v.a. independantes di-dimensionnelles et si no < rq < . . . < = n est une suite d’entiers, 

alors les vecteurs aleatoires k ouYj = {X n ._ 1 + i, . . . , X n . } sont independantes. 


Proposition 3.4 — Si X 1 , . . . , X n sont independantes, alors toute sous-famille extraite 
est formee de v.a. independantes. 


Proposition 3.5 — Si X-\, . . . ,X n sont independantes, avec Xi : Q — > R. di , alors V/,; 
boreliennes avec fi : — > R. di , fi(Xi), . . . , f n (X n ) sont independantes. 


Rappel d’integration — Soit {E\, A\, pi) et (E 2 , A 2 , p 2 ) deux espaces de mesure, 
avec pi et p 2 positives et cr-finies. Alors il existe une unique mesure p sur ( E-\ x E 2 , A\®A 2 ) 
telle que Ai, VA 2 (E A 2 , 


p(Ai x A 2 ) — pi(Ai) ■ p 2 (A 2 ) . 


p est appelee la mesure-produit et est notee p = p\ ® p 2 . 


Proposition 3.6 — Une suite de v.a. Xi di-dimensionnelles est independante ssi la 
loi du vecteur X = {X \, . . . , X n ) d-dimensionnel avec d = Y^i=i es t ^ e P r °duit. des lois des 
v.a. Xi, i.e. 

P(Xi,,.., x n ) = Pxl 8). -.8) P x n ■ 


Proposition 3.7 — (X 1; . . . , X n ) v.a. independantes <==>■ Vp £ {2, . . . , n}, X p 
est independante de {X \, . . . , X p _i). 


Lemme 3.1 — Si Xi a pour densite px, , alors Pxi < 8 > • • • <S> Px„ « pour densite 
p(xi, ...,x n )= p Xl (an) • P.y 2 (x 2 ) ■ ■ ■ Px n (■ x n ) • 
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Proposition 3.8 — Si les v.a. X, sont independantes et ont pour densite pi sur 
le vecteur aleatoire X = (Xi, . . . , X n ) a une densite p sur R. d (d = Y^i=i di) definie par 

p(x i, . . . , x„) = pi(xi) • p 2 ( x 2 ) • • • Pn{x n ) ■ 


Proposition 3.9 (Reciproque) — On suppose que X = (Xi, . . . , X„) admet sur R d 
une densite p(x i, . . . , x n ) qui s’ecrive sous la forme p(x i, . . . , x n ) = fi(x\) x . . . x f n (x n ), 
avec fi : — > K, /,; ^ 0 et.fi borelienne. 

Alors les v.a. X; sont independantes et ont pour densite 


PXi(Xi) 


fi(Xj) 

/ K d t fi(xi) d Xi 


Corollaire 3.1 — On suppose que X = (Xi, . . . , X n ) a pour densite p. Alors 

Xi, . . . , X n independantes <£=> Vi € {1, ... , n}, 3 fi ^ 0 t.q. 

p(xi, . . . , X n ) = fl{xi) ■ f 2 (x 2 ) ■■■ fn{x n ) PP- 


Proposition 3.10 — Btant donnde une suite finie de probabilites pi sur il existe 
une suite de v.a. Xi independantes telle que Pjq = pt. 


Proposition 3.11 — Soient (Xfji une suite de v.a. independantes a valeurs dans 
et f t : — > R. boreliennes. On suppose ^ 0, Vi € {1, . . . , n}. 

Alors 

( n \ n 

n /<(*<)) = n E (/«) • 

i — 1 ' i — 1 


Proposition 3.12 — Soient Xi, . . . , X n independantes. On suppose que pour tout i, 
fi(Xi) a un moment d'ordre 1. 

Alors niLi /j(Xj) a un moment d'ordre 1 et 

( n \ n 

n /«(*<) = ri E u^i)) ■ 

%— 1 ' i= 1 


Definition 3.3 — Soit. (12, A, P). Une famille (Bi)i^i de sous-tribus de A est dite 
independante si toute famille finie extraite de la famille (Bi)i^i est independante. 

Une famille (Xj)j e / de v.a. est dite independante si la famille {Bxf)iei est. independante. 


Proposition 3.13 — Soit (X„)„ £ n* une suite de v.a. Les propositions suivantes sont 
equivalentes : 

(i) la suite (X n ) ne pj* est. une suite de v.a. independantes; 
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(ii) Vn € N* , la suite Xi, . . . , X n est independante ; 

(in) Vn € N*, X n+ i est independante du vecteur (Xi, . . . , X„). 


Proposition 3.14 (Ind4pendance par paquets) — Si est une famille 

independante de tribus, et si { Ij , j € J} est une partition de I, la famille de tribus 
(cr(Uj 6 / £>;)) . est formee de tribus in depend antes. 


Theoreme 3.1 — Si (/r„)neN* est une suite de probability sur R d ", il existe un espace 
(12, A, P) sur lequel on peut definir une suite (X n )„ e N. de v.a. independantes et telles que 
Vn G N*, Px n = Un- 


Definition 3.4 — Soit (X n ) n une suite de v.a. On considere, pour p £ N, la tribu 

A p = cr(X n , n Js p) 



= 4U 8 *. 


' n^p 

On pose 

Boo = P'l Ap ■ 


pSN 

C’est. la tribu asymptotique. 



Proposition 3.15 (Loi du tout ou rien) — Si ( X n ) n est une suite de v.a. indepen- 
dantes, la tribu asymptotique associee a la famille ( X„) n est p.s. grossiere, i.e. 

MB e Boq, P (B) =0 ou 1 . 


Consequence — Toute v.a. mesurable par rapport h la tribu asymptotique est p.s. 
constante. 


3.2 Loi des grands nombres 


Theoreme 3.2 (Loi forte des grands nombres) — Soit (X n ) n une suite de v.a. 
independantes, de meme loi et ay ant un moment d'ordre 1. Alors 

— (Xi + . . . + X n ) — > E (Xi) p.s. 
n 


Theorfeme 3.3 — Soit (X n ) n une suite de v.a. independantes et de meme loi. Alors 


1 

n 


(Xi + . . . + X n ) 


p.s. 


constante finie 


E (|Xi|) < oo . 
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3.3 Fonctions caracteristiques 

Definition 3.5 — Soil X une v.a.r. On appelle fonction caracteristique de X 
l ’application 


<t>x ■ R 


t 


C 


E{e itx ) 



Remarques — Elies sont au nombre de trois : 
elle existe toujours car \e ltx \ = 1 ; 

- c’est la transformee de Fourier sur ffi. de Px ; 

si X et Y sont independantes, alors (j>x+y{t) = fix :(t) ■ <t>Y(t). 


Definition 3.6 — Soil X un vecteur aleatoire a valeurs dans . On appelle fonction 
caracteristique de X V application 


t 


E(e i<t,x >) = E(e i ' E f= lt ^) . 


Proposition 3.16 — Nous avons \<j>X(t)\ <1, Vt £ et 4>x{®) = 1- Pan ailleurs, 
la fonction 1 1 — > <px(t) est uniformement continue. 


Propriete 3.1 — Si X est un vecteur aleatoire a valeurs dans alors 4>x{—t) = 
<t>x{t). 


Proposition 3.17 — Soit X une v.a. a valeurs dans X a une loi symetrique ssi 
(f>x est reelle et paire, ce qui equivaut a <px reelle. 


3.3.1 Dans le cas gaussien 

Proposition 3.18 — Si X a 2 ), alors 

())x{t)=e itm - t2a2/2 , Vt G M . 


Proposition 3.19 — L’extension a du resultat precedent se formide ainsi : 
<t>x(t) = e i<t ’ m>_ 5 cr2 H t ll 2 , Vt G R d . 
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Proposition 3.20 — Si X A/"(0, 1), alors Vfc 

E (Z 2k+1 ) = 0 , 


E (Z 2k ) 


2 k\ 

2 k ■ kl ' 


Proposition 3.21 (Formule d’inversion de Fourier) — Soil X une v.a.r. de 

fonction caracteristique </>. On suppose que (j> € L 1 (K, dt). Alors X admet une densite f 
donnde par 


/(*) = ± [ e~ itx <j>(t) d t . 

J R 


Proposition 3.22 — Soil <fi : K. i— > C continue avec c/>(0) = 1. On suppose que 
</> € L 1 (K, dt). On pose 

g(x) = [ e ~ ltx <t>(t) d t . 

^ 7r Jr 

Si g est reelle, positive et dans L 1 (K, dx), alors 

= [ e ltx g{x) dx 

Jr 

et 4> est la fonction caracteristique de la v.a. de loi de densite g. 


Proposition 3.23 — Soit X une var admettant un moment d’ordre r € N*. Alors la 
fonction caracteristique <j>x de X est de classe C r et on a 


d r (fx{t) 

dt r 


E [( iX) r e itx . 


Par consequent, 

E [(^)1 = ^( 0 ) ■ 


Lemme 3.2 — Si X admet un moment d'ordre r £ N*, alors X admet un moment 
d’ordre p , Vp < r, p € N*. 


3.4 Formule de Taylor pour les fonctions caracteris- 
tiques 


Proposition 3.24 — Soit X une var ayant un moment d’ordre 2. Alors f>x est de 
classe C 2 et au voisinage de 0, 


4>x{t) — 1 + it E(-X’) — — E(X 2 ) + o(t 2 ) , 

+ 2 

In <j>x(t) = it E(X) — — Var(X) + o(t 2 ) . 
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3.5 Independance 


Proposition 3.25 — Une suite (JQ)j de v.a. di-dimensionnelles est independante ssi 
la fonction caracteristique du vecteur X = (Xi, . . . ,X n ) de dimension d = es t l e 

produit des fonctions caracteristiques des Xi, i.e. Vt* £ Vi, 

4>(X U „., X n )(tl = (f > X 1 {tl) x 4>X 2 (t2) x ••• X (j) Xn {t n ). 

Lernino 3.3 — 

n 

<fax 1 ®-®Px n {tl> ■ ■ ■ > *n) = • 

i=l 


Proposition 3.26 — Si X etY sont independantes, 

<j>x+Y(u) = <j>x{u) • 4>y(u) . 


Proposition 3.27 — Si X etY sont independantes, 

P A -+y = P.y * Py ■ 


Rappel — Lc produit de convolution p * v est l’image de p ® v par F application 
[x, y) i-> x + y. 


Proposition 3.28 — Quelle que soit f borelienne, 

J f(u) dP X+ y(u) = E [f(X + Y)\ 

= J J f(x + y) dP x (x) dP Y (y) . 

Proposition 3.29 — Si X a pour densite p, alors X + Y a pour density 

J p(x, y) dP y (j/) . 


Proposition 3.30 — Si X a pour densite p et si Y a pour densite q, alors X + Y a 
pour densite 


J p(x - y ) q(y) cl y 


J p{y) q( x - y) d y 

p * q . 


Proposition 3.31 — Si X etY sont a valeurs dans Z, 

P(X + Y = n) = Y p ( x = p) X P(V = n — p) . 

■pe z 
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3.6 Caracteristiques £ 2 

3.6.1 Moments 

Proposition 3.32 — Si p < q, 

E(uxrp < E(nxr)" , 

Z. 6. 

imi P < \\x\\ q . 


Proposition 3.33 (Inegalite de Jensen) — 


Soit X integrable et f convexe. Alors 


f(E(X)) < E(f(X)) . 


Proposition 3.34 (Inegalite de Minkowski) — Nous avons : 


\\x+y\\ p < u*u P +mi P . 


Proposition 3.35 (Inegalite de Holder) — Soient r > p > q avec 1 = I + I 

\\XY\\ r < ||x|| p .||F|| g . 


Definition 3.7 — X = (Xi,..., X n Y v.a. d-dimensionnelle a un moment d'ordre 1 
si Vi, Xi a un moment d'ordre 1. 


Proposition 3.36 — Soit X une v.a. d-dimensionnelle, T une matrice d' x d et 
Y = T ■ X . Si X a un moment d'ordre 1, alors T ■ X aussi et 

E(T ■ X) = T ■ E(X) . 

En particulier, si T est un vecteur colonne d-dimensionnel (d x 1) not£ a, 

E(<a,X>) = E (a 4 X) 

= a t E (X) 

= < a, E (X) > . 


Definition 3.8 — Une v.a. d-dimensionnelle X a un moment d'ordre 2 si Vi, a un 
moment d'ordre 2. Par ailleurs, 


d 

X a un moment d 'ordre 2 X? a un moment d 'ordre 1 . 

i— 1 
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Definition 3.9 — Si X est de carre integrable, la matrice des moments d'ordre 2 est 

M x = E(XI‘) . 

La matrice de covariance est 

K x = E ( [X — EpQ] [X - E(X)] *) . 

Proposition 3.37 — E(XX f ) et K x sont des matrices symetriques. 


Definition 3.10 — L'esperance et la matrice de covariance sont les caracteristiques 
£ 2 de X, vecteur aleatoire ayant un moment d'ordre 2. 


Proposition 3.38 — 

K x = E(XX*) - E(X) • E(X 4 ) . 

Proposition 3.39 — Soient X une v.a. d-dimensionnelle ayant un moment d'ordre 
2, A une matrice d' x d etY = AX. Alors Y a un moment d'ordre 2 et (a un coefficient 
constant pres) : 

M y = E (YY*) 

= A M x A * , 

K y = A Kx A * . 

Proposition 3.40 — Les matrices M x et I\ x sont symetriques de type positif. La 
matrice M x est dite definie positive ssi il n’existe pas de relation lineaire entre les 
coordonnees de X (au sens p.s.). 

La matrice de covariance K x est definie positive ssi il n’existe pas de relation affine 
entre les coordonnees de X (au sens p.s.) — ce qui equivaut a K x inversible) . 

Proposition 3.41 — Si I\ x n’est pas inversible, la loi de X n'a pas de densite. 

Proposition 3.42 — Soit X v.a. d-dimensionnelle. Si les v.a. X,; sont independantes, 
alors K x est une matrice diagonale. 

Proposition 3.43 — K matrice de covariance K symetrique de type positif. 


Proposition 3.44 — Soient Yi, . . . , Y n n vecteurs aleatoires d-dimensionnels inde- 
pendants. Alors 


Ky 1+ ... +Yn = K Yl + • • • + K Y „ ■ 
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3.6.2 Vecteurs gaussiens 


Proposition 3.45 — Soient X\, , . . ,X n n v.a. gaussiennes independantes. Alors 



Definition 3.11 — 

gaussien si Va £ 


Un vecteur X = (Xi,..., Xj)* d-dimensionnel est dit vecteur 
d 

< a, X >= ^ ciiXi 

i - 1 


est une v.a. gaussienne reelle. 


Proposition 3.46 — Soient Xi, . . . , X ^ des v.a. rdelles gaussiennes independantes. 
Alors le vecteur X = (Xi, . . . , X d)* est gaussien. 


Proposition 3.47 — 


X vecteur gaussien de dimension d 


\/d ' , MA application lineaire de dans , 
AX est un vecteur gaussien . 


Proposition 3.48 — La fonction caracteristique du vecteur gaussien d-dimensionnel 
X est, pour t € 


4>x{t) 


E (e i<t - Y> ) 
E 

4><t, x>(l) 


exp 


*E(< t, X >) — -V ar{< t, X >) 


exp < t, E(X) > — ^ t* K x tj . 


Proposition 3.49 — Soit (X, Y) un couple gaussien (i.e. toute combinaison lineaire 
de X et de Y est gaussienne) . Alors 

X etY independantes -£=>■ C ov(X, Y) = 0 . 


Proposition 3.50 — Soit X = (Xi, . . . , Xd) un vecteur gaussien. Alors 


Xi, . . . , Xd v.a. reelles independantes 


Mi ± j, C ov(X t , X 3 ) = 0 
Kx diagonale . 
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Theoreme 3.4 — Soit m un vecteur de et K une matrice d x d de type positif. 
Alors il existe un vecteur gaussien d-dimensionnel de moyenne m et de matrice de 
covariance K \ = K. 


Theoreme 3.5 — Si K est inversible, alors la loi de X a pour densite 

1 T (a : — m) t K~ 1 (x — m) 

(v / 27r) d VdetK |_ 2 J 

Sinon, la loi de X etant portee par un hyperplan (i.e. ad, b reels t.q. 

]Ci=i a iXi = b p.s.), cette loi n’a pas de densite. 


Probabilities et Statistique 


50 



4 


Conditionnement 


4.1 Esperance conditionnelle 

Soient Y G £ 2 (n, A, P) et X\, . . . , Xd des v.a. On cherche une fonction / mesurable 
telle que ||Y — f(X i, . . . , Xd)|| 2 soit minimale. 

f(Xi, . . . , Xj) sera alors la meilleure approximation dans £ 2 de Y par une fonction de 
(X u ...,X d ). 

On va etre amene a projeter Y sur l’espace 

M = {Z = f(X i, . . . , Xd) p.s. , / borelienne de R d dans K , Z £ £ 2 } 

= {Z £ £ 2 (fl, A,P),Z admet un representant cr(Xi, . . . , Xd)-mesurable} . 

U cr(Xi, . . . ,Xd)-mesurable 3</> borelienne t.q. U = <j>{X \, . . . , Xd). 

Lemme 4.1 — M est un sous-espace vectoriel ferme de £ 2 . 


Definition 4.1 — La meilleure approximation deY G £ 2 au sens des moindres 

carres par une fonction de X±, , Xd est la projection orthogonale de Y sur M , soit Y. 

Y existe et est unique. 


Definition 4.2 — (fi, A, P), B C A. On note 

Z 2 {B) = { Z G £ 2 (fl, A, P) , Z admet un representant B -mesurable} . 

£ 2 (B) est un sev ferme de £ 2 (fl, A, P). 
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Definition 4.3 — Soil Y £ £ 2 (fi, A, P). On appelle esperance conditionnelle de 
Y sachant B et on note E(Y | B) la classe d’equivalence de la projection de Y sur £r(B). 


Propriete 4.1 — Y 

projection) : 


E(Y | B), de £ 2 dans £ 2 , est une contraction (car une 
||E(Y|£)|| 2 < ||Y|| 2 • 


Propriete 4.2 — Si Y est B-mesurable, E(Y | B) = Y p.s. 

Propriete 4.3 — B = {0, fi} . £ 2 (B) = { v.a. p.s. constantes }. Alors 

E (Y | B) = E(Y) p.s. 


Proposition 4.1 — Soit Y £ £ 2 (fl, A, P). L’esperance conditionnelle E(Y | B) est 
caracterisee par I’une des deux proprietes suivantes, qui sont. equivalentes : 

(i) c’est. I’unique element Z de £, 2 (B) vdrifiant 


MB £ B, / ZdP = / YdP ; 

J b J B 

(ii) c’est I’unique element Z de £, 2 (B) vdrifiant 

MU £ £ 2 (B), E (ZU) = E (YU) . 


Proposition 4.2 — Si Y est independante de B (i.e. cr(Y) independante de B), alors 


E(Y | B) = E(Y) p.s. 


Proposition 4.3 — Si (Xi,..., X n , Y) est un vecteur gaussien, Vespdrance condi- 
tionnelle E [Y | (X \, . . . , X n )l est egale a Y, meilleure approximation affine dans £ 2 de Y 
par les v.a. Xi, i = 1, . . . , n, i.e. 


Y = J2 OiXi + b . 

i = 1 

Ce qui equivaut. a dire que la meilleure approximation dans £ 2 de Y par une fonction de 
(X \, . . . , X n ) est une fonction affine de (X\, . . . , X n ) . 


Proposition 4.4 — Si U est B-mesurable bornee et si Y est bornee, alors 

E (UY \B) = U E(Y | B) p.s. 
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Proposition 4.5 — Les propositions suivantes sont equivalentes : 

1) Y et B sont independantes ; 

2) V/ borelienne, E(/(Y) | B) = E[/(F)] p.s. ; 

3) Vt G R, E(e itY | B) = E(e itY ) p.s. 


Proposition 4.6 — Soient. B x C B 2 , Y G £ 2 (ft, A, P). Alors £ 2 (£i) C £ 2 (£ 2 ) et 


E 


E(y | b 2 ) | B l 


E(y | Bi) p.s. 


Proposition 4.7 — 

n ) > 0} . Alors 

et si n G N\, 


Soient Y G £ 2 (fi, A, P), T : Q — » N et Ni 
E(y I T) = h(T) p.s. 

E(4 1 {T=n}) 


h(n) = 


P (T = n) 


{n G N, P(T = 


Interpretation 

si y = i A , 


ou 


E(1a| T) = h 1 (T) 


h\{n) 


P(1.4 ' l{T=n}) 

P(T = n) 
P(A n T = n) 
P(T = n) 
P(A | T = n) . 


Cette dernifere probability conditionnelle a un sens puisque P(T = n) > 0. 

Proposition 4.8 — 


E(y | t) 


T—n 


j Y dP(. | T = n) . 


Done si T est discrete, l’espyrance conditionnelle sachant T, calculye en une valeur n 
telle que P(T = n) > 0, est l’espyrance de Y par rapport h la probability conditionnelle 
P(. | T = n). 


Proposition 4.9 — 

suppose Y G £ 2 . Alors 

et \/x G D, on a 


(. X , Y) a pour densite p(x, y). Soit D 
E(y|X) = h(X) 


h(x) 



p(x, y) 
p(x) 


d y ■ 


{x | p(x) > 0}. On 
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Proposition 4.10 — Soit x fixe tel que p(x) > 0 . L’application y i— > p(x, y)/p(x) 
definit. une densite de probability que Von notera p(y \ x), appelee densite conditionnelle 
de Y sachant {X = x}. L'esperance conditionnelle E(Y | X) calculee pour X = x est 
Vespdrance de Y par rapport, a la loi conditionnelle de Y sachant {X = x}, de density 
p{y | a:). 


Interpretation — Nous avons : 


E(Y | X) 


X—x 


j yp{y\x) d y . 


4.2 Extension au cas ou Y £ 2 

Proposition 4.11 — Y i— > E(Y | B) est une application croissante de £ 2 ( il , A , P), i.e. 
pour Y, Z e £ 2 , 

Y < Z p.s. =>• E(F | B) < E(Z | B) p.s. 

Definition 4.4 — Y est dite quasi-integrable (note q.i.) si une des v.a. Y + ou Y~ 
est integrable. On peut alors definir l’esperance de Y (eventuellement infinie) par 

E(Y) = E(Y+) -E(Y“) . 

Les v.a. q.i. contiennent les v.a. positives et les v.a. appartenant a £' . 

Theoreme 4.1 — VY q.i., 3! v.a. B-mesurable Z notee E(Y | B) telle que MB e B , 

[ y dP = [zap . 

J B J B 

La v.a. Z est aussi q.i. 

Proposition 4.12 — Si Y ^ 0, E(Y | B) ^ 0. 

Proposition 4.13 — SiY £ £} , E(Y \ B) £ 2 1 et 

||E(Y|B)|| fll < ||Y|| £ i . 

Proposition 4.14 — Si Y est q.i., alors E(Y | B) est q.i. et 

E(Y) = E(Y | B) . 
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4.3 Proprietes 

L’esp^rance conditionnelle v^rifie les memes proprietes que l’esp^rance ordinaire, don- 
nees ci-dessous. 

Propriety 4.4 — Si X etY sont q.i., alors aX + bY est q.i. et 
E{aX + bY\B) = aE{X \ B) + bE(Y \ B) . 


Propriety 4.5 — Si X etY sont q.i. et si X ^ Y, alors 

E{X | B) ^ E (Y | B) p.s. 


Propriety 4.6 — Soit X n ^ 0, ( X n ) n croissante. Alors 

lim / E(X n | B) = E( lim / X n \B) . 


Propriety 4.7 (Fatou) — Soit X n ^ 0. Alors 

Ef lim X n | B) A- lim E(X n | B) . 

Propriety 4.8 — Soit X n — > X p.s. etVn, \X n \ ^ Y avec Y integrable. Alors 

E(X n | B) — ♦ E{X | B) . 

Propriety 4.9 (Indgalitd de Jensen) — Soient </> convexe positive et X q.i. Alors 

E(0(X) | B) > <t>[E(X | B)\ p.s. 

4.4 Lois conditionnelles et probabilites de transition 

4.4.1 Lois conditionnelles 

Remarques — Elies sont au nombre de deux : 

1) connaitre la loi de Y revient a connaitre la loi de E (/(F)), V/ borelienne bornee 
— et reciproquement ; 

2) connaitre la loi conditionnelle de Y sachant X revient a connaitre la loi de 
E(/(F) | X), V/ borelienne bornee — et reciproquement. 
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Definition 4.5 — La loi conditionnelle de Y sachant {X = n} est definie par \/B £ 
B(R), 

N(n , B) = P (Y € B | {X = n}) 

pour n £ N\ = {n\ P(X = n) > 0}. 

Vn £ N±, N(n, .) est une probability sur (R, f?(R)). 


Proposition 4.15 — Soit V/ bordienne bornde, avec 

Nf{n) = [ f(n, y ) N(n, d y). 

Jr 

On a les deux egalites suivantes : 

E(/(X, Y)\X) = Nf(X) 
et 

E(/(X, Y)) =^P x ({n}) 


f{n,y) N(n, d y) . 


Definition 4.6 — Soit un couple de v.a. [X, Y) de densite p(x, y). Soit p(x) = 
f p(x, y) d y la densite de X. A tout x tel que p(x) > 0, on associe la probability N(x, dy) 
definie par sa densite 

, , x p(x,y) 

p{y x) = i \ • 

p(x) 

y l ~ > P(y I x ) es t positive et d’inttigrale 1 : c’est la density conditionnelle de Y sachant 
{X = x}, et N(x, dy) est la loi conditionnelle de Y sachant {X = x}. 


Proposition 4.16 — On a les deux egalites suivantes : 

E (f{X, Y) | X) = Nf{X) 


et 


E (f(X, Y)) = E (Nf(X)) . 


Proposition 4.17 — Si X etY sont independantes, la loi conditionnelle de Y sachant 
{X = a;} ne depend pas de x : c’est alors la loi de Y. 


4.4.2 Probabilities de transition 

Definition 4.7 — On appelle probability de transition de R d dans R une famille 
{N(x, .), de probabilites sur R telle que, VA £ £>(R d ), 

R d ' — » R 
x i — * N( x, A) 


est bordienne. 


Probabilites et Statistique 


56 



4. CONDITIONNEMENT 


Consequences — Elies sont au nombre de deux : 

a) soit A G B(R d ) fixe : x i— > N(x, A) est borelienne ; 

b) soit x G M. d fixe : A i— > N(x, A) est une probabilite. 

Theoreme 4.2 — V(X, Y) couple de v.a. a valeurs dans R d x R d , il existe une 
probabilite de transition N :M. d — > R. d telle que V/ ^ 0, 

E[f(X,Y)] = f dP x (x) [ f(x,y)N(x,dy) 

Js. d Jm. d ' 

= E [Nf(X)] , 

si Von pose N f(x) = J f(x, y ) N(x, d y). 

De plus, 

E (f(X, Y) | X) = Nf(X) p.s. 

N(x, dy) est la loi conditionnelle de Y sachant {X = x}. 

Proposition 4.18 — Si X et Y sont independantes, alors N(x, dy) = Py ; la loi 
conditionnelle de Y sachant {X = x} est la loi de Y. De plus, 

E[f(X,Y)\X] = E[f(X,Y)\{X = x}\ 

= Nf{X) 

= E [f(x,Y)}. 


Proposition 4.19 — Si le couple (X, Y) est a valeurs dans R d+d , si la loi de X a 
pour densite p et si la loi conditionnelle de Y sachant {X = x} a pour densite p(y \ x), 
alors le couple (X, Y) a pour densite 

p{x, y) = p(x) ■ p(y | x) . 


Corollaire 4.1 — Si Xi a pour densite p(x\) , si X 2 sachant {Xi = X\ } a pour densite 
p(x 2 | Xi), si X 3 sachant {(Xi, X 2 ) = (xi, X 2 )} a pour densite p{x 3 | x\, X 2 ), si ... , et si 
X n sachant {(Xi, . . . , X„_i) = (x \, . . . , x n -\)} a pour densite p(x 2 \ x±, . . . , x n -±), alors 
(Xi, . . . , X n ) a pour densite 

p{x 1) x p(x 2 | xi) x p(x 3 | xi, x 2 ) x • • • x p(x 2 | Xi, . . . , X n -i) . 


Proposition 4.20 — Si (X, Y) est un vecteur gaussien, alors : 

1) Vesperance conditionnelle E(F | X) est la meilleurs approximation affine aX + b 
de Y par X au sens des moindres carrds ; 

2) la loi conditionnelle de Y sachant {X = x} est une loi gaussienne d’espdrance 
ax + b et de variance a 2 . 
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4. CONDITIONNEMENT 


Proposition 4.21 — Si (Xi, . . . , X n , Y) est un vecteur gaussien, X, : — > K, Y : 

ft — > K, alors la loi conditionnelle de Y sachant {(Xi, . . . , X n ) = (xi, . . . , x n )} est une loi 
normale d’esperance aiXi+b et de variance cr = E[(F— Y) 2 ] , sachant que Y = diXi+b 
est la meilleure approximation affine de Y par (X 1; . . . , X n ). 
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5 


Convergences 


5.1 Introduction 

5.1.1 Differents types de convergence 


X n — > X p.s. <^=> 

<^> 

lim X n = lim X n = X p.s. 
pour presque tout oj £ fl, X n (u>) — 

■> X(u>) . 

X n — » X dans U 1 <^=> 

\\Xn-X\h = E (\x n -x\) -0 

(n — 

> oo) . 

X n — > X dans £ p <^=> 

\\X n — X\\ p = E (|X„-X| P ) -0 

( n - 

-> oo) 


Proposition 5.1 — Si p < q, ||.|| p < ||.|| g , c’est-a-dire que Z q C 2P . Par consequent, 

la convergence dans £, q entraine la convergence dans £ p . 


Definition 5.1 (Convergence en probability) — X n converge vers X en probability 
ssi Ve > 0, 


P(|X n - X\ > e) -♦ 0 (n — > oo ) . 

P 

On note X n — > X cette convergence. 


Proposition 5.2 — La convergence p.s. entraine la convergence en proba. 


Proposition 5.3 — La convergence dans £ p entraine la convergence en proba. 
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5. CONVERGENCES 


Proposition 5.4 — Pour tout e > 0, 


(\ x n~X\ >e) < oo =► X n ^X p.s. 


Proposition 5.5 — Nous avons I’implication suivante : 


3 (e n )„ t.q. e — > 0 et t.q. 1 
£„P [\X n -X\ >e n ) <oo / 


X n 


X 


p.s. 


Proposition 5.6 — 


(X n ) n converge en proba O (X n ) n est une suite de Cauchy en proba 

o Ve > 0, V<5 > 0, 3 N, \/n,m > N , 
(\X n -X m \ >6) < e . 


Proposition 5.7 — De toute suite convergente en proba, on pent extraire une 
sous-suite qui converge p.s. 


Consequence — De toute suite convergente dans £ p , on peut extraire une sous-suite 
qui converge p.s. 


P P 

Proposition 5.8 — Si X n — > X et X n — > Y, alors X n =Y p.s. 


P P 

Proposition 5.9 — Si X n — > X et.Y n ~^Y, alors 


X n • Y n 4 X Y 


et 

X n + Y n 4 x + y. 


5.1.2 Loi faible des grands nombres 

Theoreme 5.1 — Soit. ( X n ) n une suite de v.a. ayant. un moment d'ordre 2, deux a 
deux non correlees, ayant meme esperance m et meme variance a 2 . Alors 

— (4i + • • • + x „ ) — > m . 

n ' ' 
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5. CONVERGENCES 


Table 5.1 — Les differents types de loi des grands nombres. 


Loi forte 

Loi faible 

Moment d’ordre 1 

Moment d’ordre 2 

Independance 

Non correlation 2 a 2 

Mgme loi 

Meme esperance et meme variance 


Theoreme 5.2 — Soil (X n ) n une suite de v.a. ayant un moment d'ordre 2, deux a 
deux non correlees, ayant meme esperance m et meme variance a 2 . Alors 


1 

n 


{X\ + • • • + X n ) 


m . 


5.2 Convergence en loi 

5.2.1 Introduction 

Remarque — Comment peut-on connaitre la loi d’une v.a. ? En connaissant : 

1. \/A bordien, P(X n e A ) ; 

1’. V/ born6e, E[/(X„)] * 

2. Vi, E[exp(i<V„)] = <t> Xn ; 

3. V/ continue bornee (Cb), E[/(X„)] ; 

3’. V/ continue a support compact ( Ck ), E[/(V„)] ; 

3”. V/ continue et lim f{x) = 0, E|"/(X„)1. 

Rappel — Les fonctions de C7if(K d ) sont denses dans £ 1 (K d , dPx„) pour la norme 

1 . 


Definition 5.2 (Convergence en loi) — Soit (X n ) n une suite de v.a. On dit. que 
X n converge en loi (note C) vers X si V/ continue bornee, 

E [f(X n )} — + E [f(X)\ . 


Consequence 


Nous avons : 


X„ ^X 


x ri 


x . 
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5. CONVERGENCES 


Definition 5.3 — Une suite de mesures {m n } n positives et bornees sur B(M. d ) 
converge etroitement vers une mesure m bornee si 


V/ G C b (R d ), 



I 


f dm . 


Consequence 


Nous avons : 

I„ => F Xn Px • 


Definition 5.4 (Convergence faible) — Une suite de mesures {m n } n positives et 
bornees sur B(FL d ) converge faiblement vers une mesure m bornde si 


V/ G C 0 (K d ), 



/ 


/ dm . 


Consequence — La convergence etroite entraine la convergence faible. 


Proposition 5.10 — Soient {m n } n une suite de mesures positives et bornees, et m 
une mesure positive et bornee. Alors 


etroit. 

m n — > m 


faibl. 

m n — > m, 


m r 


m 


Corollaire 5.1 — Soient (P n ) n une suite de proba. et P une proba. Alors 

mi 6troit. , , m faibl. ... 


Corollaire 5.2 — II y a equivalence entre : 


(i) 

X n 4 X; 


(ii) 

F x „ P x ; 


(Hi) 

1 ! 


M 

V/ G C b , E[f(X n )\ - 

- e [/(*)] ; 

M 

V/ G Cq, E[f(X n )] - 

- E [f(X)] . 


Proposition 5.11 — X n -=-+ X 


X n X. 


Proposition 5.12 — X n — > a = cste 


X„ a . 
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5. CONVERGENCES 


Proposition 5.13 — Pour qu’une suite de probas P„ converge faiblement vers P, il 
suffit que 

Jf dP„ — > Jf dP 

pour tout f appartenant a, un ensemble total dans Cq. 


Rappel — Un ensemble A est dit total dans Co si l’espace vectoriel engendre par A 
est dense dans Cg muni de la norme sup. 


Corollaire 5.3 — X n — > X 


E [f(X n )] E [f(X)] WfeC K (R d ). 


Theoreme 5.3 — X n — » X 


VteR d , 4>x n (t) — » <t>x{t). 


Theoreme 5.4 (Levy) — X n — > X 


<t>x n — * 4>x continue en 0. 


Interpretation — Si <j>_ x„ — > f>x continue en 0, alors (f> est une fonction caracteris- 
tique, i.e. 3P^ t.q. 

j <t> = <t>x 

1 X n -^X 


Proposition 5.14 (Slutsky) — Nous avons : 


X n 


X 
> 0 


An • X n 
A n + X n 


> 0 
c 


X. 


X n 

An 


X 


> a 

B n ^b 

a, b constantes 


A n ■ X n + B n 


a ■ X + b 


+oo 
c 


a n (Xn -b)^X 
f differentiable au point b 


On[f{X n )-f(b )] f(b)-X 
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5. CONVERGENCES 


5.2.2 Cas gaussien 

£ 2 

Proposition 5.15 — Soit (X n ) n une suite de v.a. gaussiennes telles que X n — > X. 
Alors X est une v.a. gaussienne. 

£ 2 

Remarque — Si X n — > X , alors 

Var(X„) 
et 

E(X„) 

Notons que la rticiproque est fausse. 

c. 

Proposition 5.16 — Soit (X n ) n une suite de v.a. gaussiennes telles que X n — > X. 
Alors X est une v.a. gaussienne. 

Theoreme 5.5 (Limite centrale) — Soit ( X n ) n une suite de v.a. independantes, de 
meme loi et dans £ 2 . On note respectivement m et a 2 Vesperance et la variance de cette 
loi. Alors 

\fn — (X\ + • • • + XjA — m — > jV( 0, cr 2 ). 

n 

Interpretation — La loi des grands nombres dit que (Xi + ••• + X n )/n tend 
p.s. vers m. Le theoreme de la limite centrale signifie que la vitesse de convergence de 
{Xi + • • • + X n )/n vers m est de l’ordre de 1 / y/n. 

Theoreme 5.6 (Theoreme de la limite centrale vectorielle) — Soit (X n ) n une 
suite de v.a. a valeurs dans i.i.d. et dans £ 2 . On note respectivement m et K Vesperance 
et la matrice de covariance de cette loi. Alors 

~ (Xi + ■ ■ ■ + X n ) - m Af(0, K ) . 

n v 7 

Corollaire 5.4 — II y a equivalence entre : 

(i) X n ^ X; __ 

(ii) \/F ferme deR d , lim Px„ (P) ^ Px(-P); 

(in) VO ouvert. de lim Py. (O) ^ P x(0) ; 

(iv) \/A borelien de R d tel que Px(5-A) = Px(A — A) =0, Px„(^4) — * Px(-A). 

Corollaire 5.5 — Si Pa a une densite, alors Px„(]o, b[) — > Px(]a, b[) . 

Proposition 5.17 — Soit (X n ) n une suite de v.a. reelles. Alors 
£ 

X n — > X •<==> Fx n ( t ) — > Fx (t) en tout point de discontinuite de F \ . 


Yar(X) 

E(X) 


Probabilities et Statistique 


64 



5. CONVERGENCES 



p.s. 



t 

loi 


Figure 5.1 — Sch&natisation des diflferents types de convergence 
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Troisieme partie 


TEST 
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6 


Introduction 


Un test statistique est appele a degager un resultat significatif au milieu d’un ensemble 
de donnees exp^rimentales aleatoires. La methodologie des tests consiste & r^pondre & 
l’aide de rtisultats experimentaux h une question concernant les paramfetres 1 de la loi de 
probabilite des variables aleatoires. Quatre conditions prealables au calcul d’un test doivent 
etre reunies : 

- la question doit etre posee de telle sorte qu’il n’y ait que deux reponses possibles : 
oui et non ; 

on doit avoir des donnees chiffr^es resultant d’un echaiitillon ou d’une experimenta- 
tion ; 

- ces donnees doivent pouvoir etre considerees comme la realisation de variables alea- 
toires dont la forme de la loi de probabilite est connue ; 

- la question doit concerner un ou plusieurs parametres de cette loi. 

Une fois posee cette derniere, la reponse du test est : 

- soit l’acceptation de l’hypothese, ce qui signifie que les donnees ne sont pas en 
contradiction avec l’hypothese ; 

- soit le rejet de cette hypothese, ce qui signifie qu’il est tres peu probable d’obtenir 
les resultats que l’on a trouvtis si l’hypothese est vraie, ou encore que les donnees 
sont en contradiction avec elle. 

En un sens, le test d’hypothese est une generalisation probabiliste du raisonnement 
par l’absurde, mais alors que ce dernier met en contradiction logique deux affirmations 
formelles, le premier oppose une affirmation formelle (l’hypothfese) avec des resultats du 
monde reel (les resultats de l’exp^rience) . 

De plus, le premier ne donne pas une certitude logique (l’hypothese est fausse), mais 
seulement une forte presomption mesuree par une probabilite. 

Enfin les deux formes du raisonnement ont en commun qu’elles ne peuvent que prouver 
(ou donner une presomption de preuve de) la faussete de l’hypothese et non sa v^rite : 
ce n’est que parce qu’une experience ne conduit pas au rejet de l’hypothese que cette 
derniere est vraie : on peut imaginer d’autres experiences qui pourraient peut-etre la rejeter. 


1. Nous nous plagons dans le cas parametrique... 
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Theorie de Neyman-Pearson 


7.1 Hypotheses simples 

7.1.1 Introduction 

Soit un modele {Pg, 9 £ 0} tel que 0 = ©o U ©i et ©o (~l ©i = 0. On veut repondre a 
la question : « 9 appartient-il a ©o » ? 

Definition 7.1 — On appelle hypothese nulle H 0 = {9 £ ©o}- 
Definition 7.2 — On appelle hypothese alternative 1 H± = {9 £ ©i}. 

Definition 7.3 — On appelle test une statistique <j> : Q, — > {0, 1} mesurable telle que 

( si 4>{u>) = 0, on decide Hq, 

1 si <f>(u>) = 1, on ddcide Hi. 


Definition 7.4 — On appelle region de rejet (de H$) I’ensemble {lo \ 4>(lo) = 1}. 


0 }. 


Definition 7.5 — On appelle region d’ acceptation (de H 0 ) I’ensemble {w | 4>(u>) = 


Definition 7.6 — On appelle hypothese de base I’hypothese dont le rejet a tort, a les 
consequences les plus graves. C’est. habituellement Hq. 

1. Parfois appelee contre-hypothese. 
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H 0 //, 



Figure 7.1 — Risques de premiere et de seconde espfece. 


Definition 7.7 — Un test d’hypothese est dit conservatif car il conserve H 0 sauf si 
les donnees conduisent a, la rejeter — Hq est Vhypothese privilegiee, i.e. celle que Von garde 
si le resultat de Vexperience n’est pas clair. 


Definition 7.8 — On appelle risque de premiere espece du test 4> la probability 
de rejeter a tort. Vhypothese de base, soit. P g(<f> = 0), 0 £ ©i. 


Definition 7.9 — On appelle risque de seconde espece du test <fi la probability de 
rejeter a tort Vhypothese alternative, soit P o(4> = 1), 9 £ 0q. 


Definition 7.10 — On dit que le test est exactement de niveau a. a £ [0, 1], ssi 

V6> £ 0 O , =1) ^ a . 


Definition 7.11 — Un test </> de niveau a pour tester 6 0 contre 9\, c.-a-d. tel que 
Eg((/>) ^ a, \/9 £ 0o, est dit sans biais si 

E e (0) ^ a, V9 £ 0i . 


7.1.2 Test randomise 


Definition 7.12 — On appelle test randomise une fonction (j> mesurable de (X, A) 
dans [ 0 , 1 ] telle que (j>(u>) = 7 avec : 

- si 7 = 0 : on decide Hq ; 
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- si 7 = 1 : on decide Hi ; 


- si 0 < 7 < 1 : on effectue un tirage au sort, auxiliaire, independant de V experience, 
a valeurs dans { 0 , 1 } : 


I P({1}) =7, 

\ P({0}) = 1 - 7 . 


Proposition 7.1 — II existe toujours un test randomisd de niveau exactement. a. 


Remarque — Par opposition, il n’existe pas toujours de test (non randomise) de 
niveau exactement a. 


Definition 7.13 — Un test <f) randomise est de niveau (exactement) a ssi 

f V9 £ ©o, E e {4>) < a, 

\ 39 £ ©o t-q. E g((j>) = a. 


Proposition 7.2 — Le risque de premiere espece vaut. E g((f>), 0 £ Q q. 


Proposition 7.3 — Le risque de seconde espece vaut 1 — Ee(</>), 9 £ ©i. 


7.1.3 Puissance 

Definition 7.14 — On appelle puissance du test cf) la quantite Eg(0), 9 £ 0 ±. 

Definition 7.15 — Un test <fi est dit. uniformement le plus puissant (UPP) de 

niveau a si 

J ( f> est de niveau a, 

\ \/(f>' test de niveau a , E g((j)) ^ E g((f>'), 9 £ ©i. 


Theoreme 7.1 — Soil 0 < a < 1. 

1) II existe k £ R + et 7 G]0,1[ tels que le test defini par 

! 1 si pi(x) > kp 0 (x), 

0 si pi(x) < kp 0 (x), 

7 si pi (a:) = kp 0 (x), 

soit exactement de niveau a. 

2) Soit (f>* un test de niveau a. Alors 4> est plus puissant que (/)*, i.e. 

E fll (0) ^ E 9 l (0*) . 

3) Si (j)' est un test de niveau tel que 

£ 0 , {<t>) > E fll (^) (=► E ei {tf>') = EoM) 
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alors <f> verifie 


( 1 sipi(x) > kp 0 {x), 
\ 0 si pi (a;) < kpo(x). 


Remarques — Ainsi : 

1) (j> est une reponse a la question : « parmi les tests de niveau a, existe-t-il un test 
UPP ? » ; 

2) (j> est « h peu prfes » la seule reponse, i.e. <j/ = (f> sur {pi ^ k • po}. 


Thdorfeme 7.2 


Soit <t> le test de niveau a de la forme 


1 si pi(x) > kpo(x), 
4>{x) = { 0 si p\{x) < kp 0 (x), 

7 si pi (a:) = fc-p 0 ( x). 


Alors 


(/)" t.q. Eg 0 (</)") < a 
et t.q. E (</>") ^ E ei (^) 


sur ^ k 
Pe 0 


Remarque — Le choix de la valeur de </>* optimal sur {pi = k ■ po} n’est pas 
necessairement determine. 


Definition 7.16 — Tout test (f>* qui coincide avec (f> sur {pi = k • po} et qui vdrifie 
Eg 0 ((f>*) = a est dit. optimal. Un tel test s’appelle test de Neyman-Pearson. 


Proposition 7.4 — Un test de Neyman-Pearson est necessairement sans biais. 


Definition 7.17 — Un test de Neyman-Pearson est necessairement strictement sans 
biais, a condition que le modele soit identifiable. 


7.2 Hypotheses multiples 

7.2.1 Tests unilateres ( one-tailed tests ) 

II s’agit de tester 0 O = {0 < 0 O } (respectivement ©o = {0 ^ $o}) contre ©i = {6 > 0 O } 
(respectivement ©i = {6 < 0 O })- 

Definition 7.18 — Soit (Ps) un modele domine. La famille P g est dite a rapport 
de vraisemblance monotone (RVM) s’il existe une fonction T : (X, A) — > (R, £>(R)) 
mesurable telle que \/6 < 6' , 

*6,0>(nx)) = ^(x) 

P8 

soit. une fonction croissante de T{ x). 
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Theoreme 7.3 — Soit une famille RMV. Le test 


( 1 si T > t, 
<j> = < 0 si T < t, 
I 7 siT = t, 


est UPP pour tester ©o = {0 ^ 0o} contre ©i = {9 > 0o} 
De meme, le test 

( 0 si T > t, 
cj) = < 1 si T < t, 

I 7 siT = t, 

est UPP pour tester ©o = {0 ^ 0 q} contre ©i = {9 < 0q} 


dies que Ee o ( 0 ) = a. 


dts que Eg 0 ((/>) = a. 


7.2.2 Tests bilateres ( two-tailed tests ) 

Soient Oi < 0 2 . H s’agit de tester l’une des trois hypotheses suivantes : 

0 G [0i, 0 2 ] contre 0 fL [0i, 0 2 ] ; 

0 ^ [0i, 02 ] contre 9 G [0i, 0 2 ] ; 

9 = 0 O contre 9 =£ 9q- 

Thdorfeme 7.4 — II n’existe pas de test UPP de 8 £ [0i, 0 2 ] contre 9 ^ [0i, 0 2 ], V0i ^ 

02 - 


Theoreme 7.5 — Si la famille est exponentielle, soit de la forme 

exp [C(0) • T(x) - m] 

avec C croisante, alors le test 

0 si T £ [n, r 2 ], 

1 si T e]n, r 2 [, 

7 1 si T = n, 

72 si T = r 2 , 

est UPP , parmi les tests de niveau a, a, condition que £^(0) = Eg 2 (<^) = a. 
De meme, le test 

0 si T e] 7 i, t 2 [, 

1 si T £ [n, r 2 ], 

7 1 si T = n, 

72 si T = r 2 , 

est UPP, parmi les tests de niveau a, a, condition que E#^^) = Ej i 2 ((f>) = a. 
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Degre de signification 

Probability critique 

Notation 

Test significatif 

0,01 < P c (t) < 0,05 

* 

Test tres significatif 

0,001 < P c (t) ^ 0,01 

** 

Test hautement significatif 

Pc{t) ^ 0,001 

*** 


Table 7.1 — Correspondance entre degre de signification et probability critique. 


7.3 Probability critique et regie de decision associee 

7.3.1 Definition 

Soit t une realisation de la statistique de test T. La probability critique ( p-value ) 
mesure la probability d’obtenir t ou une valeur encore plus yioignye de si Hq est vraie. 
C’est une mesure de l’accord entre l’hypothese testee et le resultat obtenu. Plus elle est 
proche de 0, plus forte est la contradiction entre Hq et le resultat obtenu. La contradiction 
au sens logique du terme correspond a une valeur nulle de la probability critique (le resultat 
obtenu est impossible quand H 0 est vraie). 

Nous distinguons les deux cas suivants : 

1° cas d’un test unilateral : la region de rejet est de la forme TZ = {T ^ Z} ; on appelle 
probability critique et on note P c , P c {t) = P(T ^ t \ 9 = $o) ; 

2° cas d’un test bilateral : la region de rejet est de la forme TZ = { \T\ ^ i} ; on appelle 
probability critique et on note P c , P c (t) = P(|T| ^ t \ 9 = do). 

On a dans les deux cas la propriety suivante, qui permet de proceder a la decision 
d’acceptation ou de rejet au vu de la probability critique : 

P c (t) < a O t £ 1Z 

ou 1Z est la rygion de rejet d’un test de niveau a. 


7.3.2 Signification statistique et importance de la distance entre 6 
et H 0 

On mesure le degre de « signification 1 statistique » d’un test par P c (t) : l’usage courant 
veut que l’on utilise la correspondance donnye par le tableau 7.1. 


Remarque — On ne doit pas confondre le degre de signification statistique avec 
l’importance de la distance entre 6 et Hq. On peut ainsi avoir un test hautement significatif 
avec un ecart faible entre 6 et 9q si le test est tres puissant — inversement, avoir un test 
non significatif avec une diffyrence ryelle importante si le test est peu puissant. 


1. Ou encore significativit 6 . . . 
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Fisher et Cramer-Rao 


8.1 Introduction 


Definition 8.1 — La fonction f est dite absolument continue de derivde f s’il 
existe une fonction f integrable sur tout intervalle [a, b] et telle que 



f'(x) dA(x) 


/(&) - /(a) . 


Remarque — /' n’est definie que A-p.s. Elle est appelee derivee faible. 

Remarque — Si la derivee « classique » existe et est continue, alors / est absolument 
continue. Mais que la d6riv£e « classique » existe p.s. et et soit integrable n’implique pas 
que / soit absolument continue. 


Proposition 8.1 — Nous avons 


f absolument continue 


I Vf>eC£, 

1 J ft (x) f(x) dx 


- f H x ) f (x) dx . 


Proposition 8.2 — Soit ou bien g £ C' 1 (K) et f absolument continue, ou bien g 
absolument continue et f £ C' 1 (K). Alors g o f est absolument continue et sa derivee faible 
est g'{f) x f. 


Proposition 8.3 — Soient f et g absolument continues. Alors f ■ g est absolument 
continue de ddrivde faible f-g + f-g 1 - 
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8.2 Modeles reguliers 


Definition 8.2 — Soil 0 un ouvert de R. et (X, A. P e,9 £ 0) un modele domind, avec 


P(0, x) = ^(x) • 
dp 

La regularire est caracterisee par : 

1° 0 ^ ^{(T, x) est absolument continue pour tout x, p-p.s. ; 

2° x i-> ■§ s \/p(6, x) eC 2 (p); 

3° la fonction 

6 ^ 1(9) = 4 j (’VRM)) dg(x) 
est localement bornde. 


Definition 8.3 — La quantite 1(9) s’appelle I’information de Fischer. 


Proposition 8.4 — Dans un modele regulier, quelle que soit la statistique T telle que 
9 i— > E g(T 2 ) soit localement bornde, 9 i— > Eg(T) est absolument continue de ddrivde 

2 J T(x) • ^\/p(6», x)^ ■ \Jp(9, x) dp(x) . 


Corollaire 8.1 — Si T = 1, 

/ {§e^ p ^ 9 ' a: ' ) ) ' ^ 


o . 


8.3 Information de Fischer 


8.3.1 Changement de parametres 


Soit h bijective : h et h 1 sont confinement differentiables. On pose 

/ ri = H0), 

1 9 = 

On opere le changement suivant : Pg — > = P^-i^). Alors 


Av) 


m 

h' 2 (9) 


0=h-R v ) 
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8.3.2 Echantillonnage 


Soit (X, A, Pe, 9 € 0) un module rtigulier, et 1(9) l’information de Fischer associtie. 
Soit un n-echa,ntillon de ce module : A® n , Pf n , 9 € 0) est regulier. On note l n (9) 

l’information de Fischer associee. 


Theoreme 8.1 — 

l n {9) = n ■ 1(9) . 


Proposition 8.5 — Sous I’hypothese (plus forte) que 9 i— > log p(9, x) est absolument 
continue, alors 


P (e,x) 


1(9) = E 0 

= jp(9,x)\^o gP (9, x) ) dp(x) . 


Proposition 8.6 — Sous Vhypothese (plus forte encore) que 9 i- 
absolument continue, et que logp(9, x) est localement bom6e, alors 


log p(9, x) est 


1(9) = E 0 


d 2 

d 2 9 


log p(e, X) 


8.4 Calculs de l’information de Fischer dans des cas 
particuliers 

8.4.1 Families exponentielles 


Modele droit 


Soit le modele = exp {9 -T(x) — f>(9)}. Alors 


1(9) = <t>"(9) 

= Var e (T) . 


Modele courbe 


Soit le modele ^^-(x) = exp jc(A) • T(x) — </>[c(A)] Alors 


1(A) = [c'(A)] 2 Var X (T) . 
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8.4.2 Modele de translation 


Soit g la mesure de Lebesgue. Soit / une densite de probability telle que \f] soit 
absolument continue de derivee g, avec g £ X 2 (g). Soit Pe telle que 


dPs 

dg 


(x) 


f(x-d) , 


i.e. on observe Y sous Pg : Y = 9 + e, e de densite de probability f. 
Alors 

1(6) = J g 2 dg . 


8.5 Autres resultats 

Proposition 8.7 — Soit T une statistique de loi Pg . On suppose que {Pg , 9 £ 0} est 
un modele regulier. On note respectivement X(9) etI T (9) les informations de Fischer sur 
le modele global et sur le modele {P^, 9 £ 0}. Alors 

1 t {9) < 1(9) 
et 

X T (9) = X (9) <t=> T exhaustive . 


Definition 8.4 — T est une statistique libre sur le modele {Pj, 9 £ 0} ssi la loi de 
T sous Pg ne depend pas de 9. 


Proposition 8.8 — T libre ^ X T (9) = 0 


8.6 Inegalite de Cramer-Rao 


Theoreme 8.2 (Inegalite de Cramer-Rao) — Si le modele est regulier et si T est 

une statistique telle que 

9 i— > Eg(T 2 ) est localement bornee, 

- X (9) > 0, 

et si (j>(9) = Eg(T), alors <fi est absolument continue de derivee <j)' et 


Yare(T) ^ 


W 

X(9) 
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Definition 8.5 — Soil T un estimateur sans biais de 4>{9). T est dit efficace si 


Yarg(T ) 


<t>'(0) 2 

m 


Theoreme 8.3 — Soil 0 un ouvert non vide. Si 6 i— > ff'p(9, x) est continument 
differentiable, alors p(9, x) ^ 0 Mx, V9. On suppose </>(6) non constante. Dans un modele 
regulier, s’il existe un estimateur T d’une quantite <j>{9) qui soit sans biais et efficace, alors : 
le modele est exponentiel; 

- T est la statistique du modele exponentiel, i.e. 

p{9,x) = exp (u(0) • T{x) — h(0)} . 


Soit (X, A, Pe, 9 G 0) un module regulier. Soit un n-Miantillon de ce module : 
(X® n , A® n , Pf", 9 € 0) est regulier. Soit q(6) la quantite a estimer. 


Definition 8.6 — (T n ) n est une suite d’estimateurs convergents si 

\/9 G 0, T n ^ q{9) , 


\/9 G 0, Ve > 0, P%(\t n -q{9)\ > e) — ■» 0 (n->oo). 

Definition 8.7 — Soit (£ une suite de modeles. Soit (T n ) n une suite d’estimateurs 
associee a q{9) . On dit que T n converge en loi le long de ( n a la vitesse de ( a n ) n ssi 
Vune des trois conditions suivantes (equivalentes) est satisfaite : 

(i) si X n = a n [T n — q(9)], il existe une v.a. de loi ¥ x telle que 

V0 G 0, (P e ) x - P* Y ; 

(ii) \/9 G 0, V/ continue bornee, 

J f [ a n (T n - q(9)] dPf » — J f(X ) dP* (n - oo) ; 

(in) \/a,b ^ Ag, \/9 G 0, 

(a„ [T n - q{9)\ G [a,6[) — > P # (lG [a,b[) ■ 


Definition 8.8 — [a n ,/? n ] est asymptotiquement un intervalle de confiance au 

niveau a si 

V0G0, lim Pg(q(9) G [a„ ,/?„]) > 1-a. 

n — >-oo 


Remarque — Dans la precedente definition, 9 est fixe. 
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Proposition 8.9 — Dans un modele regulier, tout estimateur « interessant » converge 
a la vitesse a n = yfn et la loi limite est normale, i.e. sous P g, 


oil 


X ■ — > N{e,v(o)) 


v{9) 


1 

W) ' 


Definition 8.9 


On dit qu ’un estimateur T n de 8 est asymptotiquement efficace 


fn (T n - 8) 


Af 0 


1 


m 


V6> G 0 . 


Definition 8.10 — On dit qu’un estimateur T n de 8 est super efficace si \/8 G 0, 

V^(T n -0) Af(0,V(0)) 


ou 


V6>, 


V{9) < 


1 

W) 


et 


38 0 t.q. V(8 0 ) < 


1 

wa ■ 


Theoreme 8.4 — Soit le modele exponentiel p(9 , x) = exp {C(9) ■ T(x) -m}, avec 
C de classe C 1 , bijective et telle que C' (9) ^ 0, V6* G 0. Soit un n-echantillon et 9 n I’EMV 
associe. Alors 


y/n (9 n 



V8eQ . 


8.6.1 Maximum de vraisemblance en modele exponentiel 

Theoreme 8.5 — Soit 8 appartenant. a un ouvert de ffi. et p(9 , x) = exp {C(9) ■ T(x ) — 
<f>(0)}. Si 9 n (existe et) est I’EMV calcule sur un n-echantillon de P g, 

v^A-o) -G *(o,^) voce. 

Remarque — Nous avons : 

1 n 

§ n = r l [~'Z T ( X i)\ 

i = 1 

ou 

m = E e (T) 

V[C(8)\ 

C'(9) ’ 
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i.e. 


m 

C'(9) ' 


Remarques — Elies sont au nombre de trois : 

1) dans les modeles reguliers, la vitesse de convergence est plus petite ou egale a y/n ; 

2) dans les modules exponentiels, l’EMV atteint la vitesse y/n et est le plus efficace 
asymptotiquement, i.e. sa variance asymptotique est egale a la borne de Cramer- 
Rao d’un 1-echantillon : 

Vn(e n ~e) VL, n(q , ; 

3) dans les modeles reguliers, parmi les estimateurs qui possedent une certaine stability 
en loi, la « meilleure » variance asymptotique est 1/1(9). 


Theoreme 8.6 — Soil (X\, . . . ,X n ) un n-echantillon de loi P#, avec 9 £ 0 ouvert de 
R. On pose 


p(9, x) 
1(9 , x) 


dPff 

dp 

log p(9, x ) . 


On suppose que 9* est la vraie valeur du parametre, et qu ’il existe un voisinage V (9*) inclus 
dans 0 et tel que : 

1° 1^(9, x) existe \/9 £ V(9*), p-p.s. en x ; 

2° 1(9 , x) est deux fois absolument continue et 1^(9, x) £ £ 1 (Pg ) ; 

3° 3 H(x) : R. — > R + telle que H £ £ 1 (Pg*) et telle que 

1^(9, x)| < H(x) \/xp — p.s.; 

4° 1(9*) > 0 ; 

5° Vn ^ no, L n (9) = (i.e. la log-vraisemblance) admet un maximum 

unique sur 0 . 

Alors 

9 n — > 9* (en proba ou p.s.) 


et 


Vn (9 n 


9*) 



Af \ 0 



Remarque — Ces resultats demeurent vrais dans le cas vectoriel. En particulier, 
rinegalite de Cramer-Rao pour un estimateur non biaist: T d’une quantity <j>(9) devient 

Yar,(T) > [ V <t>(0 )] ‘ • 1~\0) ■ [ V m\ ■ 
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Quatrieme partie 


STATISTIQUE GAUSSIENNE 
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9 


Statistique gaussienne 


9.1 Dans R 

Definition 9.1 — Une variable aleatoire rdelle (v.a.r.) Z est une gaussienne stan- 
dard si et seulement si sa densite par rapport a, la mesure de Lebesgue est 

1 _*£ 
e 2 . 

On note A/"(0, 1) sa loi de probability. 




Propriety 9.1 — Les moments de Z sont : 


E (Z) 
E (Z 2k+1 ) 

E (Z 2k ) 


0 , 

0 , 

2 • k\ 

2 k ■ k\ ' 


Propriete 9.2 — La fonction caracteristique de Z vaut 


E(e~* z ) = e C , 

E(e“ 2 ) = e~*£ VueK . 


Propriete 9.3 


La fonction de repartition de Z est 
1 


F(x) = 


— oo \/ 2 7T 


e 2 d u . 


Le tableau 9.1 fournit quelques valeurs de $(x) = 1 — F(x). 
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Table 9.1 — Valeurs de <f>(a;) = 1 — F( x). 


X 

0,67 

1,00 

1,96 

2,00 

3,00 

<f>(a:) 

0,250 

0,159 

0,025 

0,022 

0,001 


Nous pouvons obtenir l’encadrement de <f>(a:) suivant : 


\/x > 0. 

Si x > 1, 


e 2 x 


vVZtt 1 + x 2 


< < <1 \e x 2 1 A 


e 2 


J 


Quand a; — > oo, 


1 e x 2 e x 2 




^(a;) 


e 2 


C\/27T 


Definition 9.2 — Y est une gaussienne reelle ssiY = m + erZ cm to G R, cr ^ 0 et 
Z 7V(0, 1). On a : 

E (Y) 

Var(Y) 

E(e iujV ) 

et 

E{e~ pY ) = e ~ pm+E ~^~ . 

Remarque — Une v.a.r. gaussienne est caracterisee par sa moyenne et sa variance. 

9.2 Vecteurs gaussiens 


= m , 

= £ ium • 


Definition 9.3 — Y = {Y \ , . . . , Y n ) 1 est un vecteur gaussien ssi toute combinaison 
lineaire des Yi est une gaussienne reelle. 


Proposition 9.1 — Sort Y = (Yi, . . . , Y n y un vecteur aleatoire tel que E(Y) = m 
et V = Cov(Y) — matrice de variance-covariance. Alors Y est un vecteur gaussien ssi 

Vw g r, 

\ giuAm— 
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Proposition 9.2 — SiY = (Y[ . . . . ,Y n Y suit une loi Af(m,V) et si Z = AY + b, alors 
Z suit une loi A f(Am + b, AVA*). 

Proposition 9.3 — Soit Z Af(m, V), et V = M DM* la decomposition de V 
- cette decomposition existe puisque V est une matrice symetrique positive — avec M 
orthogonale et 

rl 0 0 

0 0 : 

: 0 rl 0 • • • : 

: 0 ••• 0 ••• : 

: 0 : 

0 0 

oil ri Y 0 Vi = 1 , . . . , k . 

Alors il existe X = (Xl, . . . , X &)* de loi Af(0, Ik) tel que 

k 

Z = m + Y. r i ViXi , 

i= 1 

oil les Vi sont les k premiers vecteurs-colonnes de M. 

Nota — Le theoreme se reecrit matriciellement sous la forme Z = rri + BX avec 

nv i r k v k 

B = 

Cette matrice B, de dimensions n x k, est injective (i. e. exactement de rang k). 


9.3 Normes de vecteurs gaussiens 

Definition 9.4 — Soit X Af( 0, /„). Alors la norme de X est 

n 

\\xf = Y, x i ■ 

i = 1 

Proposition 9.4 — La norme definie ci-dessus suit un X 2 (n). 
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Proposition 9.5 — Si X 


-> — > 


Af( 0, 1), alors X 2 suit une loi gamma T 



Rappel — Une loi T(p, A) a pour densite 

Y^jK e ~ Xx xPl i R +( a: ) • 

La somme de deux lois gamma indtipendantes verifie 

r(pi,A) + r(p 2 , A) = r(pi + P2, a) . 

n ^ 

Par consequent, si X J\T( 0, 1), alors 


Nota — Si X T(p, A), alors 



pour tout t > — A. 

Remarque — Si X Af(0, I n ) et si P est une matrice n x n de projection ( i.e . 

P = P l = P 2 ), alors ||PA1|| 2 x 2 (p)> oil P est le rang de P. 


Definition 9.5 — On appelle loi de Student t(k) la loi de la variable 



X~>AT(0,1) 

Y X 2 (fc) 

X etY sont independantes. 


Propriete 9.4 — Pour tout x, 


t n (x) 



(n 


oo ) . 


Theoreme 9.1 (Student) — Si X \, . . . , X n sont i.i.d. de loi Af(m, o 2 ), alors : 

1) X n =kZ?=i X i 

2) Rn = E-=i(X i -X n ) 2 ^a 2 X 2 (n- 1 ) ; 

3) X n et R n sont independants ; 

R„ 


n rr _ Vn{X n - m) ^ Q 
4 ) — 0 ; OU & n — 


n — 1 


, suit une loi de Student t{n — 1). 
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10 


Estimations et tests 


10.1 Estimation de la moyenne 


10.1.1 Cas ou la variance est connue 


Definition 10.1 — L'estimateur de la moyenne /u de (X \, . . . , X n ) est 


A 


1 

n 


£*• 


D’apres les resultats precedents, nous avons : 

2 

X n —^j , 

c.-a-cl. 

~ - Af( 0, 1) . 

a 

Par consequent, 


y/n(X n - n) 
a 


> 1,96 


0,05 


et done 


X n — 1,96 —j= ^ fi ^ X n + 1,96 

Jn Jn 


1 - 0,05 . 


Definition 10.2 


On dit que 


X n — 1,96 ,X n + 1,96 ^ 


confiance pour /.t de niveau d ’erreur 5 %. 


est un intervalle de 


86 



10. ESTIMATIONS ET TESTS 


10.1.2 Cas ou la variance est inconnue 


On se sert du theoreme de Student : on sait que m ) t(n— 1). Par consequent, 

I s/h{X n - n) 


S n 


> r a } = a 


et done 


X n -r a ^L < n < X n + r a —A ) = 1 - a . 

yjn Jn. 


Definition 10.3 

niveau d'erreur a. 


Y" __ Sn Y 1/7- Sn 

s'-n 1 a. 7 A n T ' 


est un intervalle de confiance pour p de 


10.1.3 Test 

A partir d’un echantillon dont on connait la moyenne empirique, on calcule un intervalle 
de confiance, et l’on regarde si la moyenne correcte (moyenne de reference) appartient a cet 
intervalle. 


10.2 Estimation de la variance 


La statistique de la variance cr 2 est 




qui suit une loi % 2 (n — 1). 

Si C a (n — 1) est donne par P(y 2 (n — 1) > C a (n — 1)) = a, alors 

n — 1 „o o n — 1 „ 9 \ 

^ n S n < o 3 < z 7 TT-S 2 1=1-' 

C§(n-1) Ci_«(n-1) 


Definition 10.4 — L 'intervalle 
confiance pour a 2 de niveau d’erreur a. 


Ca(n-l) u n ) C 1 _a(n- 1 )‘ 


est un intervalle de 


10.3 Comparaison des moyennes de deux populations 

Soient (Xi, . . . , X n ) i.i.d. de loi Af(p i, cr 2 ), et (Yi, . . . , Y m ) i.i.d. de loi Af(p 2 , cr 2 ). Les 
deux echantillons sont supposes independants. 
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10.3.1 Cas ou les variances sont connues 

D’apres les resultats precedents, X n — Y m suit une loi W^mi — M 2 , yp 
La statistique de la difference des moyennes p 1 — M 2 , 

7 X n Y m (mi M2) 


et elle suit une loi normale centree reduite. 
Par consequent, 


a? Un - - la? a 2 

X n — Y m — 1,96 \ 1 L Mi — M2 X n — Y m + 1,96 \ 1 

n to V n m 


= 0,95 


Definition 10.5 — L’intervalle 


X n -Y m - 1,96 a ^ + £ , X n - Y n + 1,96 a/ ^ + £ 


est un intervalle de confiance pour Mi — M 2 de niveau 5 %. 


10.3.2 Cas oil les variances sont inconnues mais egales 

Supposons que a\ — a\ = a 2 . La statistique de la difference des moyennes est 


X n -Y m - 


W = 


Mi “ M2 

n m 


VWH - x n )i + YJ7i - y m ) 2 


n + m — 2 


et elle suit une loi de Student t(n + m — 2). 


10.3.3 Test de l’hypothese d’egalite des variances 


2 

On va construire une statistique pour le rapport des variances a i /cr|, puis comparer 
cette statistique h 1. 


Definition 10.6 — On appelle loi de Fischer- Snedecor F(ni, n 2 ) la loi de la 
variable 

7 _ X /n 1 

LSI ’ 

avec 

f X~> X 2 (ni) 

^ y ^ X 2 (n 2 ) 

I X et Y sont independantes. 
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Remarque — F[n\,n 2 ) = 1/-F(ri2,ni). 
La statistique du rapport des variances est 


et elle suit une F(n — 1, n — 2). 

Par suite, si l’on note / x (n, to) la quantite telle que P(F(n — 1, to — 1) > f x (n, to)) = a:, 
on obtient un intervalle de confiance pour le rapport des variances de niveau cl’erreur a : 

'Si 1 s'l 1 

.Si (»• '») ’ -S'l f%{n,m) 
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11 


Modele lineaire 


11.1 Presentation 


Definition 11.1 — On appelle modele lineaire gaussien unidimensionnel une 

relation de la forme : 

Y = X/3 + e , 

oil Y = (Yi, . . . , Y n ) est un vecteur de n observations, X est une matrice n x p (observee 
elle aussi), f3 est un vecteur de p parametres (inconnus) et e est un vecteur aleatoire de 
dimension n, suppose suivre une loiN{ 0 , cr 2 I n ). 


Dans le cadre de la regression lineaire, on cherche a obtenir d’un modele lineaire theo- 
rique 


Dt = /3x t + 5 + e t 


un ajustement 


ijt = f)x t + S + e t 

tel que yt. soit le plus « proche » possible de yt- Ceci revient a chercher, parmi les droites 
d’equation y = j3x+5, celle qui est telle que la somme des carres des ecarts et soit minimum. 

Interpretation des parametres — (3 est la pente de la clroite : If represente la 
variation de la moyenne des Y, lorsque Xi augmente d’une unit^, mutatis mutandis. Quant 
h S, il repr^sente la valeur moyenne de Y lorsque X, = 0. 


Definition 11.2 — La droite telle que la somme des et soit minimum est appelee 

droite de regression de y en x. 
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11.2 Estimateur des moindres carres 


Definition 11.3 — Y etant donne, soil la fonction 7 definie comme suit : 


W M+ 

(3 ^ j(Y, f3) = ||y — Xf3\\ 2 . 

On appelle estimateur des moindres carres (3 = argmin j(p. Y) . 


11.2.1 Interpretation geometrique 

Soit V C R" d^fini par 

V = Sm(X) 

= X{W) 

= {X(3 , (3 £W} . 

(3 minimise ||y — X(3\\ 2 <^> X(3 = projy(F) 

=£> /3 existe toujours, mais il n’est pas necessairement unique. 
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Y 



Figure 11.2 — Interpretation geometrique 

Proposition 11.1 — Nous avons : 

1) f3 unique 44 X injective; 

2) pour p ^ n : X nxp injective 44 X*X inversible. 


11.2.2 Expression algebrique de l’estimateur 


Si X 4 A est inversible, 


(3 = {X t X)~ 1 X t Y . 


Si X t X n’est pas inversible, on ckifinit la pseudo-inverse de X t X : si X l X est symti- 
trique positive, alors X t X = M t DM avec M orthogonale et 


/ 

r i 

0 ••• 

0 \ 


0 

0 




0 r 2 q 

0 ••• : 



0 ••• 

0 ••• : 

V 

• • • O 

• o 

0 ) 


avec r\> r% > ... > ^ 0. 


La pseudo-inverse ( X t X )E 1 1 est 


(A^X) 1 " 11 = M* ■ 


( 11 

o 0 ••• 

■ 0^0 
q 

: 0 ••• 0 

: 0 

V o 


°\ 


• M . 


0 J 


On verifie facilement que 

f3 = {X t X)^X t Y . 
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11.2.3 Expression algebrique de l’operateur de projection sur V 

Pour tout Z, 

proj V (Z) = X(X t X)~ 1 X t Z . 

Definition 11.4 — On appelle vecteur des residus 

e = Y-X0. 


11.3 Theoremes de Cochran 

Lemme 11.1 — Soient U n N(£, /„ ) et Ai une matrice Hi x n. Une condition 
necessaire et suffisante pour que A.JJ soit independante de AjU est que A^Ai = 0. 

Lemme 11.2 — Soit U n C, /„). Alors ||/7|| 2 a une loi qui ne depend que de n, 

et si Von pose ||£|| = A 2 , cette loi est un chi-deux decentre x' 2 ( n i A 2 ). 

Lemme 11.3 — Soient P±,. . . , Pk € £(R”,R”) telles que : 

- p i = p l ; 

In = Pi- 

Alors on a les equivalences entre (i), (ii) et (Hi) : 

(i) Ei=i rg( p i)^n; 

(ii) PiPj = 0 sii^j, Vi, j ; 

(Hi) P 2 = Pi , Vi. 

Proposition 11.2 — Soit P un operateur de projection de M" dans R m , et soit 
U n C, I n )- Alors \\PU \\ 2 suit une loi x' 2 (rg (P), ||PCI| 2 )- 

Nota — ||PC|| 2 s’appelle le coefficient de non-centralite. 

Remarque — Reciproquement : si P £ £(R",R n ) (ens. des applications lineaires) et 
si X Af( 0, /„), alors 

||PAT|| 2 X 2 (fc) <t=> P*P est un projecteur . 

Theoreme 11.1 (Cochran 1) — Soient Pl, . . . ,Pk dans £(R", K”), et X 
On suppose que : 

- P = Pl ■ 

r i r % I 

- T = p ■ 

1 n — A^i—l 1 i i 
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Ei=i r s( p *) < n. 

Alors Vi, Pi est un projecteur (Pf = Pi) et les (PiX)i—i t ... > k sont des vecteurs gaussiens 
de R" independants et de loi J\f(Pi C, Pi)- 

Theoreme 11.2 (Cochran 2) — Soient X I n ) et Qi, ■ ■ ■ , Qk des formes 

quadratiques sur R™ telles que : 

- W = VxgR"; 

Ei=i r g (.Qi) < n. 

Alors les (Qi^)i=i,..., fc sont des % /2 (rg (Qi), Qi(()) independantes. 

Re marques — Nous avons : 

1) Cochran 1 => Cochran 2 ; 

2) Qi(X) = ||PjX|| 2 . 

11.4 Proprieties des estimateurs 

Le modele est toujours 

Y = X/3 + e , 

avec Y vecteur nxl cles observations, X matrice n x p, observ^e elle aussi, f3 vecteur 
paramfetre de dimension p (inconnu) et e vecteur al^atoire de dimension n, suppose suivre 
une 7V(0, a 2 I n ). 

11.4.1 Estimateur des moindres carres 

E(/3) = /? , 

i.e. (3 est sans biais. 

Cav0) = ^(X'X)- 1 . 


11.4.2 Residus 

= K(\\Y-XP\\ 2 ) 

n — p 
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11.4.3 Lois des estimateurs 


Proposition 11.3 — Nous avons : 


P 



0 


0 

In - X(X t X)~ 1 X 


Proposition 11.4 — Nous avons : 

2 

~2 a 1 / \ 

a X yn-p) 

n — p 


et cet estimateur est independant de 0. 


D’ou la possibility de construire des intervalles de confiance pour les differents estima- 
teurs. 


11.4.4 Test d’une sous-hypothese lineaire 

Soit C une matrice l x p, 0 < l < p. On fait l’hypothfese que les l lignes de C sont 
linyairement indypendantes. La question est la suivante : « (7/3 = 0? » 


Soit le sous-espace de dimension p — 1 

Vi = {X/3, 0 er I (7/3 = 0} 

= {X/3, pew I 00 = 0 i= ... = 0 i-i = 0} 

= {X/3, 0 = (0i, ■ ■■ , 0p-i), X = p — l dernieres colonnes de X} . 

La statistique, qui suit une F(l, n — p), est 

T = \\X0-X0\\ 2 /i 

\\Y-Xpf / (n-p) ' 

11.5 Theoreme de Gauss-Markov et moindres carres 
ponderes 


On remet en doute l’hypothese Cov(e) = a 2 I n . Maintenant, Cov (e) = a 2 G, avec G 
matrice (connue) inversible. 

On peut transformer le nouveau modyle pour obtenir un modyle linyaire ordinaire. Soit 
G = B l B, avec B matrice n x n inversible. On multiplie le nouveau modele par B : 

B~ 1 Y = B~ 1 X0 + B~ 1 e , 
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soit 


Z = X'P + e' , 


( 11 . 1 ) 


avec cette fois Cov (e 7 ) = o~I n . 

fj z , estimateur des moindres carres du module (2.1), rend minimum la quantity 

\\Z-X'pf = \\Y-XPW%--,. , 

ou ||x||q_i = x t G~ 1 x. Ainsi on obtient : 

- un premier estimateur (/ 3 ) qui minimise ||Y — X / 3|| 2 ; 
un second estimateur qui minimise ||Y — X/3||g_i. 

On peut clefinir des estimateurs des moindres carres associes a une norme arbitraire 
A , qui rendent minimum ||Y — X/3\\\. Ce sont des estimateurs des moindres carres 
ponderes. 

Si 



f 

Vi 

0 

... 0 \ 


/ ^ 

' Vl 

0 

... 0 \ 

G = 


0 


0 : 

i.e. G 1 = 

0 


0 : 



rv 

0 

0 

n .. i 


, rv 

0 

0 

rv 1 


V 0 • • • 0 v n J \ 0 ... 0 X J 


alors le p qui minimise ||Y — minimise X]"=i ~ (A”/3)j)“. 

Definition 11.5 — Si P* minimise ||Y— XP\\ 2 A , comme ||Y — X/3||^ = (Y— X/3)*A(Y — 
Xp), alors P* = BY. P* est dit estimateur lineaire. 


Theoreme 11.3 (Gauss- Markov) — Soit le modele Y = Xp + e, avec : 

- rg (X)=p; 

- e tel que E(e) = 0 et Cov(e) = a 2 I n . 

Soit p un estimateur lineaire et sans biais, i.e. : 

- 3 S tel que P = SY ; 

- Vp€W,Ep(P)=p. 

Soit S ^ la matrice de covariance de p. Alors 

^/3 = + R > 

ou R est une matrice symetrique positive. 


Nota — Si l’on veut estimer a 4 /3, Gauss-Markov nous dit : « Parmi les estimateurs 
lin^aires et sans biais, dans le module standard, l’estimateur des moindres carres P donne 
des estimateurs de a 4 /3 de variance minimum, et ce quel que soit a », puisqu’en effet 

Yar(a*/3) = 

= a t Ypa + a * Ra , 


et atRa ^ 0. 
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11.6 Coefficient de determination et coefficients de cor- 
relation 


Le carre de le distance entre Y et Y s’appelle la somme des carres residuelle (SCR), 
car c’est la somme des carres des residus : 


SCR 


te 



On peut utiliser le theoreme de Pythagore pour obtenir l’egalite matricielle suivante : 
yty = Y l Y + (Y -y)*(y -Y) , 


soit 

SCT = SCM + SCR , 

ou SCM est la somme des carres due au modele (SCR) et SCT la somme des carres 
totale (SCR). Ce sont ces carres que l’on retrouve dans les tables d’analyse de la variance 
(cf. chapitre ??). 

Dans le cas ou le modele comprend un terme constant, on calcule plutot la somme des 
carres totale corrigee SCT r et la somme des carres due au modele sans le terme constant 
SCM c : 

(Y -YY(Y -Y) = (Y -YY(Y -Y) + (F -Yf{Y -Y) , 

soit 

SCT c = SCM c + SCR . 

Geometriquement, cela revient a prendre comme origine dans R n , non plus le vecteur 
de coordonees 0, mais le vecteur dont toutes les coordonnees sont egales a Y, moyenne de 
toutes les observations. 

On peut donner une mesure de la qualite de l’ajustement du modele aux observations : 
il s’agit du coefficient de determination note R 2 

2 SCMc 
SCT c ' 

Geometriquement, ce rapport est egal au carre du cosinus de l’angle du vecteur YY 
avec le sous-espace V (cf. fig. 11.3). 


R 2 s’interpr&te comme la proportion de variability de Y « expliqu^e » par X. Plus il est 
proche de 1, meilleure est la qualite de la regression. La quantite 1 — R 2 est la proportion 
de variability de Y qui n’est pas « expliquee » par la regression. 

Le test de l’hypothese « H 0 : (3 = 0 » peut etre fait avec la statistique 


F 


(n 


2 )- 


R 2 

1 -R 2 
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Y 



Figure 11.3 — Coefficient de determination. 

qui, sous H 0 , suit une loi de Fisher (1, n — 2). 

Remarque R = |r| ou r est le coefficient de correlation entre X et Y (r n’a pas 
de sens lorsque X est aleatoire). 

On resume souvent l’ensemble des elements de ce paragraphe dans une table synthti- 
tique, appelee table d’analyse de la variance de la regression (cf. tab. 11.1). 


Table 11.1 — Table d’analyse de la variance. 


Source de 
la variation 

Somme 
des carres 

Degres de 
liberte 

Carre 

moyen 

Fisher 

Regression 

SCM 

1 

SCM 


Erreur 

SCE 

n — 2 

SCE 

(n-2) 


Total 

SCT 

n — 1 

SCT 

O-i) 



11.7 Coefficients multiples, partiels, semi-partiels 

Considerons la regression de Y suivant deux variables X et Z : 

Y — Pq + (3\X + P 2 Z + e . 


11.7.1 Notations 


Les estimateurs de /3o, P\ et @2 sont respectivement notes b 0: &i et & 2 - 
Les matrices de variance-covariance et de correlation de (X,Y,Z) sont notees 


( v\ a xy &xz\ 

&XY &y °yz et 
<?xz oyx cr| ) 


( 1 PXY Pxz 

PXY 1 PYZ 
Pxz Pyx 1 
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Les matrices de variance-covariance et de correlation de (X,Y,Z) calculees sur l’echan- 
tillon de taille n valent 


/ s 'x S XY Sxz\ 

1 j 

( 1 r X Y r X z\ 

I SXY Sy Syz 

et 

r X Y 1 r Y z 

\sxz Syx s| / 


\r X z r Y x 1 J 


La figure 13.1 illustre la decomposition de la variance de Y. 

11.7.2 Coefficients multiples 

Coefficient de determination multiple R 2 II mesure la proportion de variance de Y 
expliqu^e par X et Z. 


R 2 


2 

Py\xz 

Pxy + PYZ\xO- - P 2 ZX ) 

( Pyz — PyxPzx ) 2 


2 

Pxy 


1 Pzx 


II correspond a la fraction 

b + e + f 
b + c + e + f 

de la figure 13.1. 

Si X et Z independante, i.e. pxz = 0, alors p\-^ x = pyx + Pyz- 


( 11 . 2 ) 


Coefficient de correlation multiple R II s’agit de la racine carree de R 2 . 
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11.7.3 Coefficients partiels 

Coefficient de determination partielle Le coefficient de determination partielle entre 
1 et I mesure la proportion de variance de Y expliquee par X (c.-it-d. que l’effet de Z 
est maintenu constant). Autrement dit : de la variance de Y qui n’est pas associee a Z , il 
mesure la proportion expliquee par X. 


2 _ (pyx - PxzPyz ) I 2 

“ (i - A*)(i - Az) ' 

Le coefficient de determination partielle mesure aussi la proportion de variance clu residu 
de Y par rapport a Z , expliquee par le residu de X par rapport a Z. 

11 correspond a la fraction 

b 

b + c 

de la figure 13.1. 


Coefficient de correlation partielle Le coefficient de correlation partielle entre V et 
X mesure la liaison entre Y et X lorsque Z est maintenue constante par rapport h X et 
Y. II s’agit de la racine carree du coefficient de determination partielle. 


Facteur d’inflation de la variance Avant introduction d’une seconde covariable dans 
un modele de regression lineaire, l’ecart-type de b\ — estimateur de j3\ — vaut 


s 


2 

YX 


Y.X 2 * - (E x ) 2 / n 


s y(l r YX ) 

(n - 2)s 2 x 


Apres inclusion de Z, la valeur de cet ecart-type devient 


’(I r Y\xz 


( n — 3)s|.(l — r 2 


xz) 


ou r Y \xz es t l’estimateur de py\xz- Nous voyons que l’ecart-type inclue le terme 1/(1 — 
r xz)i qui est appele facteur d’inflation de la variance , puisqu’il mesure l’impact sur l’ecart- 
type de la correlation entre X et Z. Si rxz est proche de 1, l’ecart-type de b\ peut tendre 
vers l’infini. 

De fagon similaire, nous avons pour valeur de lAcart-type de b 2 

I S y( 1 — r Y\Xz) 

V ( n — 3)s|(! — r xz) ' 

La proportion sur echantillon de variation de Y expliquee par X et Z est tiree de 
l’equation (11.2) et vaut 

r Y\xz = r XY + r YZ\x(l ~ r xz) ■ 

Notons que cette proportion de variation peut approcher 1 alors mgme que les coeffi- 
cients de regression pris individuellement n’ont pas d’effet significatif. 
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11.7.4 Coefficients semi-partiels 

Le coefficient de determination semi-partielle entre Ye t X mesure la proportion de 
variance de Y expliqu^e par X seul (c.-fi-d. que l’effet de Z est maintenu constant par 
rapport a X — mais pas par rapport a Y). Autrement dit : de la variance totale de Y, il 
mesure la proportion expliquee par la seule variable X. 


Pyx(Z) 


2 2 
Py\xz ~ Py\z 


II correspond a la fraction 


de la figure 13.1. 


b 

b + c + e + f 


Coefficient de correlation semi-partielle Le coefficient de correlation semi-partielle 
entre Y et X mesure la liaison entre Y et X lorsque Z est maintenue constante par rapport 
a X . II s’agit de la racine carree du coefficient de determination semi-partielle. 


11.7.5 Relation 


Le coefficient de determination partielle s ’exprime sous la forme suivante : 


2 

Pyx\z 


Pyx(Z) 
1-Py\z ’ 


c.-fi-d. comme le rapport du coefficient de determination semi-partielle entre Y et X sur 1 
moins le coefficient de determination de Y suivant Z 1 . 


Nous retrouvons bien la relation h l’aide de la figure 13.1 : 

PYX(Z) _ b+c+e+f 

1 — rP 1 e+/ 

P Y\Z 1 - b+c+e+f 

b b+c+e+f 

— ys 

b + c + e + f b + c 

b 

b + c 


Exemple Soit le tableau donnti suivant : 

1. Ce resultat se generalise sous la forme suivante : il s’agit du rapport du coefficient de determination 
semi-partielle entre Y et X sur 1 moins le coefficient de determination de Y suivant toutes les variables 
explicatives sauf X. 
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y 

X 

z 

4 

1 

8 

2 

1 

7 

3 

1 

7 

4 

1 

9 

5 

1 

5 

5 

1 

4 

7 

2 

3 

5 

2 

6 

4 

2 

7 

9 

2 

2 

7 

2 

3 

6 

2 

2 


> summary (lm (y~x+z , exrdeux) ) $r . squared 
[1] 0.7266 

> cor (exrdeux [, c(l, 2, 3)]) 

y x z 

y 1.0000000 0.6769405 -0.8240243 

x 0.6769405 1.0000000 -0.6122400 

z -0.8240243 -0.6122400 1.0000000 

> fitl_lm(y~z , exrdeux) 

> fit2_lm(x~z , exrdeux) 

> f it3_lm(f itl$resid~f it2$resid) 

> summary (fit3)$r. squared 

[1] 0.1482 

> fit4_lm(y“x, exrdeux) 

> fit5_lm(z~x, exrdeux) 

> fit6_lm(f it4$resid~fit5$resid) 

> summary (fit6)$r. squared 

[1] 0.4953 

Nous lisons done : 

que le coefficient de determination multiple R 2 egal a 0,7266 ; 

que la contribution de X a l’explication de la variation de Y vaut 0,187 (il s’agit du 
coefficient de regression centre reduit 0,276 que multiplie le coefficient de correlation 
simple 0,6769) ; 

que la contribution de Z a l’explication de la variation de Y vaut 0,540 (il s’agit du 
coefficient de regression centre reduit —0,655 que multiplie le coefficient de correla- 
tion simple -0,8240)) ; 

que le coefficient de determination partiel Ty X , z — obtenu en maintenant constante 
Z par rapport a Y et X — vaut 0,1482 ; 

que le coefficient de determination partiel r xz | Y — obtenu en maintenant constante 
X par rapport a Y et Z — vaut 0,4953. 


Nous pouvons decomposer la proportion de variation de Y de la fagon suivante. 


Probabilities et Statistique 


102 




11. MODULE LIN A AIRE 


Fraction [a] : proportion de variation de Y expliquee par X lorsque l’effet de Z est 
maintenu constant par rapport a X seulement (et non par rapport hY): c’est le r 2 obtenu 
en r^gressant Y sur le r£sidu d’une regression de X par rapport & Z , ou encore le coefficient 
de determination semi-partielle de Y sur X(Z) : 

> fit7 <- lm(x ~ z, exrdeux) 

> fit8 <- lm(y ~ fit7$resid, exrdeux) 

> summary (fit8)$r. squared 

[1] 0.04756446 


Une autre fagon de le calculer est : 

summary (lm (y~x+z, exrdeux) ) $r . squared - summary (lm(y~z , exrdeux) )$r . squared 
[1] 0.04756446 


Fraction [c] : proportion de variation de Y expliquee par Z lorsque l’effet de X est 
maintenu constant par rapport h Z seulement (et non par rapport h Y) : c’est le r 2 obtenu 
en regressant Y sur le residu d’une regression de Z par rapport h X, ou encore le coefficient 
de determination semi-partielle de Y sur Z(X) : 

> fit 9 <- lm(z ~ x, exrdeux) 

> fitlO <- lm(y ~ fit9$resid, exrdeux) 

> summary (fit 10) $r. squared 

[1] 0.2683321 


[c] : 


Fraction [b] : R 2 de la regression multiple de Y sur X et Z auquel on soustrait [a] et 


0,7266 - 0,0475 - 0,2683 = 0,4107 . 


Le partitionnement donne done : 


M + [b] + [c] + [d] = 0,0475 + 0,4107 + 0,2683 + (1 — 0,7266) 

= 1,0000 . 


Remarque — On peut aussi calculer le r 2 partiel de Y sur X en maintenant constant 
l’effet de Z comme suit : 

r 2 _ N 

rxY ' z - [a]+[d] 

0,0475 

0,0475 + 0,2683 
= 0,1504 

« 0,1482 (aux arrondis prfes). 

Remarque — Nous obtenons egalement : 

la fraction [a] + [b] en calculant summary dm (y~x, exrdeux) )$r. squared; 
la fraction [c] + [b] en calculant summary (lm(y“z, exrdeux) )$r. squared; 
la fraction [cl] + [b] en calculant summary (lm(x"z , exrdeux) ) $r . squared ; 

R 2 = [a] + [b] + [c] en calculant summary (lm(y~x+z, exrdeux) )$r .squared. 
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En resume La contribution (au sens de Scherrer) d’une variable explicative n’est egale 
a la fraction [a] de variation expliquee (au sens du partionnement cl ela variation) que 
dans un seul cas : lorsque toutes les variables explicatives sont orthogonales entre elles 
( i.e . lineairernent independantes) . Dans ce cas, la fraction [b] est nulle. Le coefficient de 
determination multiple R 2 se calcule alors comme suit : 

soit en calculant biryx + b 2 ryz, ou b\ et b 2 sont les coefficients de regression centres 
reduits et ryx et ryz les coefficients de correlation lineaires simples (Pearson) ; 

soit en additionnant les fractions [a] et [c]. 

Dans le cas general, c’est-a-dire lorsque les variables explicatives ne sont pas inde- 
pendantes, elles expliquent chacune une part de la variation de Y, mais ces fractions se 
recouvrent plus ou moins. Dans ce cas, la fraction [b] n’est plus nulle ; elle « gruge » une 
partie des fractions [a] et [c], qui sont done plus petites que les contributions partielles 

ces contributions partielles etant egales a [a] ou [c] plus une partie de [b]. 

Dans ce cas, le R 2 total de la regression multiple (c.-a-cl. la coefficient de determination 
multiple) se calcule comme suit : 

soit en calculant biryx + b 2 ryz, ou b\ et b 2 sont les coefficients de regression centres 
reduits et ryx et ryz les coefficients de correlation lineaires simples (Pearson) ; 

soit en additionnant les fractions [a], [c] et [b]. 

Remarque — II arrive que la fraction [b] soit negative : ceci arrive lorsque deux 
variables explicatives ont des effets marques et opposes sur la variable dtipendante, tout en 
£tant corr616es entre elles. Dans ce cas, les fractions [a] et [c] sont plus grandes que leurs 
contributions partielles. . . 


11.8 Selection de variables 

11.8.1 Methode ascendante (forward) 

> ozone. lm <- lm (ozone ~ temp, data = x) 

> summary (ozone . lm) 

Call: lm(formula = ozone ~ temp, data = x) 

Residuals : 

Min IQ Median 3Q Max 
-40.92 -17.46 -0.8738 10.44 118.1 

Coefficients : 

Value Std. Error t value Pr (> I t I ) 

(Intercept) -147.6461 18.7553 -7.8723 0.0000 

temp 2.4391 0.2393 10.1919 0.0000 

Residual standard error: 23.92 on 109 degrees of freedom 
Multiple R-Squared: 0.488 

F-statistic: 103.9 on 1 and 109 degrees of freedom, the p-value is 0 

Correlation of Coefficients: 

(Intercept) 
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temp -0.9926 

> addl (ozone . lm, ~ temp + rad + wind) 

Single term additions 

Model : 

ozone ~ temp 

Df Sum of Sq RSS Cp 

<none> 62367.44 64656.15 

rad 1 2723.08 59644.36 63077.43 

wind 1 11419.45 50947.99 54381.06 

> ozone2.1m <- lm(ozone ~ temp + rad, data = x) 

> summary (ozone2.1m) 

Call: lm(formula = ozone ~ temp + rad, data = x) 


Residuals : 

Min IQ 

-36.61 -15.98 

Median 

-2.928 

X 

3Q Max 

12.37 115.6 



Coefficients : 


Value 

Std. Error 

t value 

PrOltl) 

(Intercept) -145.7032 

18.4467 

-7.8986 

0.0000 

temp 

2.2785 

0.2460 

9.2622 

0.0000 

rad 

0.0571 

0.0257 

2.2205 

0.0285 


Residual standard error: 23.5 on 108 degrees of freedom 
Multiple R-Squared: 0.5103 

F-statistic: 56.28 on 2 and 108 degrees of freedom, the p-value is 0 

Correlation of Coefficients: 

(Intercept) temp 
temp -0.9616 
rad 0.0474 -0.2941 


11.8.2 Methode descendante (backward 

> ozone. lm <- lm(ozone ~ temp + rad + wind, data = x) 

> dropl (ozone . lm, ~ temp + rad + wind) 

Single term deletions 


Model : 


ozone 

<none> 

temp 

rad 

wind 


temp + rad + wind 
Df Sum of Sq RSS 

47964.12 
1 19031.74 66995.86 

1 2983.87 50947.99 

1 11680.24 59644.36 


Cp 

51550.22 

69685.43 

53637.56 

62333.93 
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11.8.3 Methode pas a pas (stepwise) 

> ozone. lm <- lm(ozone " 1, data = x) 

> step (ozone . lm, ~ temp + rad + wind) 
Start: AIC= 124016.5 

ozone ~ 1 

Single term additions 
Model : 


ozone 

' 1 



scale : 

1107.29 




Df Sum of Sq 

RSS 

Cp 

<none> 


121801.9 

124016.5 

temp 

1 59434.47 

62367.4 

66796.6 

rad 

1 14779.68 

107022.2 

111451.4 

wind 

1 45762.03 

76039.9 

80469.0 

Step : 

AIC= 66796.6 



ozone 

temp 



Single 

term deletions 


Model : 




ozone 

temp 



scale : 

1107.29 




Df Sum of Sq 

RSS 

Cp 

<none> 


62367.4 

66796.6 

temp 

1 59434.47 

121801.9 

124016.5 


Single term additions 
Model : 

ozone ” temp 
scale: 1107.29 

Df Sum of Sq RSS Cp 

<none> 62367.44 66796.60 

rad 1 2723.08 59644.36 66288.10 

wind 1 11419.45 50947.99 57591.73 

Step: AIC= 57591.73 
ozone ~ temp + wind 

Single term deletions 

Model : 

ozone ~ temp + wind 
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scale: 1107.29 

Df Sum of Sq RSS Cp 

<none> 50947.99 57591.73 

temp 1 25091.90 76039.88 80469.04 

wind 1 11419.45 62367.44 66796.60 

Single term additions 

Model : 

ozone ~ temp + wind 
scale: 1107.29 

Df Sum of Sq RSS Cp 

<none> 50947.99 57591.73 

rad 1 2983.867 47964.12 56822.44 

Step: AIC= 56822.44 
ozone ~ temp + wind + rad 

Single term deletions 

Model : 

ozone ~ temp + wind + rad 
scale: 1107.29 

Df Sum of Sq RSS Cp 

<none> 47964.12 56822.44 

temp 1 19031.74 66995.86 73639.60 

wind 1 11680.24 59644.36 66288.10 

rad 1 2983.87 50947.99 57591.73 

Call: 

lm(formula = ozone ~ temp + wind + rad, data = x) 
Coefficients : 

(Intercept) temp wind rad 

-64.23208 1.651208 -3.337598 0.05979717 

Degrees of freedom: 111 total; 107 residual 
Residual standard error (on weighted scale): 21.17222 


11.9 Adequation du modele 

Les hypotheses h verifier sont : 

— la normalite des residus : on trace un « QQ plot » ; 

l’omoscedasticite : ce terme designe l’independance cle la variance des residus vis-a- 
vis des variables (a expliquer comme explicatives) ; 
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l’independance entre eux des residus : test de Durbin-Watson dans le cas de donnees 
temporelles. 

L’identification des valeurs aberrantes passe par P etude de la force de levier, et par 
suite, par le calcul de la distance de Cook. 

II s’avere egalement interessant de comparer les residus standardises et les residus stu- 
dentises, et d’etudier de pres les points pour lesquels ces residus different. 


Y 


11.9.1 Differents types de residus 

Residus observes Ils sont definis par : 

a = Yi-Yi 
= Yi-X'P 

oil e, ~ Af(0, cr 2 (l — ha)) et 

ha = X' i {X'X)- 1 X’ i 
1 (X{ - x) 

La matrice nxn des h v , est appelee matrice chapeau ( hat matrix — II matrix). Nous 
voyons que plus l’observation Xj est eloignee du centre des donnees x, plus la ponderation 
associee a yj est importante dans le calcul de yi, et par consequent plus cette observation 
aura un impact fort dans la determination des valeurs y. 

II est clair, egalement, que chaque observation y.j a un impact sur la determination de 
Vi- 

Les elements les plus importants de la matrice H sont ses elements diagonaux, qui 
mesurent P impact de yi sur y.j. La quantite ha est appelee force de levier ( leverage — h 
hat value) : elle mesure l’eloignement de P observation Xi du centre des donnees X. Quand 
cette force h ti est grande, y.j est plus sensible aux changements de valeurs de y.j que quand 
cette force est faible. 

La somme des forces de levier JN h tl est egale ap+l; aussi, une force de levier 
superieure a 2 (p+ 1 )/n revele une observation potentiellement aberrante. 
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X 


N 


O 



D 


Y 


Sur la figure — les points O et D sont eloignes du centre du nuage : ils auront done des 
des forces de levier importantes. Par contre, le point N aura une force de levier faible. D’un 
autre cote, si l’on cherche la droite de regression ajustant au mieux les donnees contenues 
dans le nuage principal, et que l’on compare cette droite h celle ajustant au mieux le infeme 
nuage de points auquel on a adjoint soit IV, soit D , soit O, on obtiendra des pentes et un 
intercept differents. en particulier, on voit que les points N et O auront un impact bien 
plus grand que D sur les estimations des parametres de la droite de regression. Ainsi, le 
force de levier n’est qu’une mesure partielle de l’influence de l’observation (xj, yi) sur les 
paramfetres de la droite de regression. 


esidus standardises Pour pouvoir apprecier reellement le role des residus, il est prefe- 
rable de les standardiser : pour ce faire, on calcule 

e» 

Ti = , 

sV 1 - ha 

qui sont les residus standardises : leur moyenne est nulle et leur variance vaut 1. 

Ces residus doivent se trouver dans l’intervalle [—2, 2] : tout residu en dehors de cet 
intervalle indique une valeur aberrante potentielle. 


Residus studentises Les residus standardises sont parfois appeles residus intrinseque- 
ment studentises , car s 2 n’est pas independant de e*. Une alternative consiste a calculer le 
residu extrinsequement studentise — plus simplement appele residu studentise — qui fait 
intervenir non plus s 2 , mais s 2 ^, variance estim^e sur l’ensemble des points excepts ( Xi , y j). 
Ainsi l’estimateur s 2 ^ est-il independant de q. 

Le residu studentise est 

l i — ; 

y/1 ha 

oil S(j) est la variance sur l’echantillon auquel on a retire le i e point. 

Ce residu suit une loi t(n — p— 2), oil p est le nombre de parametres (c.-a-d. de variables 
explicatives) . II peut se reecrire sous la forme 

f _ e iy /n-p-2 

[{n-p- l)s 2 (l - ha - e 2 ] 1/2 
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qui permet d’apprecier la mesure de l’influence de l’observation (x,. y, ) sur l’ajus- 
tement par regression lineaire. En effet, le residu est important si l’observation a un residu 
(ordinaire) important — variability dans le sens de l’axe des ordonnyes — et/ou s’il a une 
force de levier importante — variability dans le sens de l’axe des abscisses. 


> library (MASS) 

> f it_lm(log(x [, 11] ) ~x [, 1] ) 

> plot (f itted(f it) , studres (f it) , 
xlab="Valeurs ajustees", 
ylab="Residus studentises") 

> abline(h=0,lty=2) 

> identify (fitted(f it) , 
studres (fit) , row.names(x)) 



11.9.2 Hypothese de normalite 

La verification de cette hypothese passe habituellement par le trace d’un QQ plot : il 
s’agit de representer les couples (e,;, Q,), ou Qi est la valeur attendue de e* si la distribution 
est exactement normale. Si l’liypotliese de normality est vyrifiye, les points du graphes 
doivent se trouver sur une clroite. 


> qqnorm( studres (f it) , | 
xlab="Quantiles de loi normale", | 
ylab="Residus studentises") | 

> qqline(studres(fit)) S 


11.9.3 Homoscedasticite 

La verification de cette hypothese passe habituellement par le trace des residus en 
fonction de Y, puis de X, afin de voir si les rysidus sont distribuys alyatoirement, ou 
bien s’ils prysentent une structure particuliyre. La figure ci-dessous donne des exemples 
dlreteroscedasticity. 



Quantiles de loi normale 
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£i 


tii 


£i 


£i 


tii 


11.9.4 Diagnostic d’influence 

Une fois la presence de valeurs aberrantes constatee, il convient de les identifier et 
de mesurer leur influence sur la regression. L’indicateur d’influence de Cook prencl en 
compte a la fois la force du levier (variability horizontale) et l’importance de l’ecart en 
terme de r^sidu (variability verticale) . II mesure l’influence d’une observation en comparant 
les estimations obtenues avec et sans cette observation : si les estimations changent peu, 
alors cette observation est consideree comme peu influente. 

La statistique de Cook consiste en 

n 1 

Di = E(JTTp(»««-w) 2 

hii 2 

ip + 1)(1 — ha) 

La statistique sera importante si le residu standardise (variabilite verticale) est impor- 
tant et/ou si la force de levier (variability horizontale) est grande. 

Une fois calculye cette statistique, on ytudie plus particulierement les observations pour 
lesquelles la statistique de Cook excede 1. 


> plot((fit), which=c(6)) 



11.10 Multicolinearite 


Pour detecter la multicolinearite, il faut entreprendre deux choses : 
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etudier la matrice de correlation : il y a multicolinearite si les correlations entre 
paires de variables explicatives sont plus importantes que leur correlations avec la 
variable dtipendante ; 

- etudier la tolerance — la toltirante de la variable X, est 1 — Rf, ou Ri est le coef- 
ficient de determination de la variable Xj regressee par toutes les autres variables 
independantes — : si la tolerance est inferieure a 0,10, il y a colinearite. 

Les remedes sont soit l’obtention de nouvelles donnees, soit la suppression d’une des 
variables independante correlee. 
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Introduction 


L' Analyse en Composantes Principales (ACP) fait partie du groupe des methodes 
descriptives multidimensionnelles appelees methodes factorielles. De par leur caractere 
descriptif, ces methodes ne s’appuient pas sur un modele probabiliste, mais dependent 
d’un module geometrique. L’ACP propose, h partir d’un tableau rectangulaire de donnees 
comportant les valeurs de p variables quantitatives pour n unites (appelees aussi individus), 
des representations geometriques de ces unites et de ces variables. Ces donnees peuvent 
etre issues d’une procedure d’echantillonnage ou bien de l’observation d’une population 
tout entiere. Les representations des unites permettent de voir s’il existe une structure, 
non connue a priori, sur cet ensemble d’unites. De fagon analogue, les representations des 
variables permettent d’etudier les structures de liaisons liiVaires sur F ensemble des variables 
considerees. Ainsi, on cherchera si l’on peut distinguer des groupes dans l’ensemble des 
unites en regardant quelles sont les unites qui se ressemblent, celles qui se distinguent des 
autres, etc. Pour les variables, on cherchera quelles sont celles qui sont tres correlees entre 
elles, celles qui, au contraire, ne sont pas correlees aux autres. . . 

Nous verrons aprfes l’expose de la metliode quelles precautions il faut prendre pour 
interpreter correctement les representation obtenues. Dans tous les cas, il ne faut pas 
oublier d’oii sont issues les donnees utilisees et ce qu’elles representent et signifient pour le 
probleme que l’on se pose. 

Enfin, comme pour toute methode descriptive, realiser une ACP n’est pas une fin en 
soi. L’ACP servira h mieux connaitre les donnees sur lesquelles on travaille, h detecter 
d’eventuelles donnees suspectes, et aidera h formuler des hypotheses qu’il faudra etudier 
a l’aide de modeles et d’etudes statistiques inferentielles. On pourra aussi, a posteriori, se 
servir des representations fournies par l’ACP pour illustrer certains resultats dans un but 
pedagogique. 


12.1 Tableau de donnees 

Les donnees consistent en p mesures, correspondant a des variables quantitatives 
{v\,V2, • ■ • , v p }, effectives sur n unites {wi,U2, . . . , u n }. 
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Le tableau de donnees, note X, est de la forme 



ce qui donne 



De fagon analogue, on peut representer chaque variable par un vecteur de R” dont les 
composantes sont les valeurs de la variable pour les n unites : 



Pour avoir une image de l’ensemble des unites, on se place dans un espace affine en 
choisissant comme origine un vecteur particulier de par exemple le vecteur dont toutes 
les coordonnees sont nulles. Alors chaque unite sera representee par un point dans cet 
espace. L’ensemble des points qui represented les unites est appele traditionnellement 

nuage des individus.. 

En faisant de meme dans R n , chaque variable pourra etre reprfeenttie par un point de 
l’espace affine correspondant. L’ensemble de ces points qui represented les variables est 
appele nuage des variables. 

On constate que ces espaces, qui sont generalement de dimension superieure ou egale 
a 2, ne permettent pas de visualiser ces representations. L’idee generale des methodes 
factorielles est de trouver un systeme d’axes et de plans tels que les projections de ces 
images de points sur ces axes permettent de reconstituer les positions des points les uns 
par rapport aux autres, c’est-a-dire d’avoir des images le moins deformees possible. 
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V p U ; 




Figure 12.1 — Nuage cles individus (A gauche) et des variables (A clroite). 


12.2 Choix d’une distance 


Pour faire une representation g£om£trique, il faut choisir une distance entre deux points 
cle l’espace. La distance utilisee par l’ACP dans l’espace oil sont representees les unites est 
la distance euclidienne classique. La distance entre deux unites et up est egale a 

p 

d ( Ui , Up) — ^ ^ ( x ij Ki'j ) 

1=1 

Avec cette distance, toutes les variables jouent le meme role et les axes definis par les 
variables constituent une base orthogonale. A cette distance on associe un produit scalaire 
entre deux vecteurs : 


V out, out >) = 


= E ; 


ainsi que la norme d’un vecteur 




1=1 


= Ui U V , 


om 


= E 


Xa 


3 = 1 

= Ud Ui . 

On peut alors definir l’angle a entre deux vecteurs par son cosinus : 

/ rvn’- mil \ 

cos(a) = 


OUi 


\oup 


ELi x u x v. 


x E)i=i4i 

Uj Ui’ 

y/iUi* Ui){Ui> t U V ) 
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12.3 Choix de l’origine 


Le point o correspondant au vecteur de coordonnees toutes nulles n’est pas forcement 
une origine satisfaisante, car si les coordonnees cles points du nuage des individus sont 
grandes, le nuage est eloigne de cette origine. II apparait plus judicieux de choisir une 
origine liee au nuage lui-meme : le centre de gravite du nuage. Pour clefinir ce centre de 
gravity, il faut choisir un systerne de pondtiration des unites : soit, pour tout i = 1, . . . , n, 
Pi le poids de 1 ’unite m tel que 

n 

= 1 ' 

i=l 


Definition 12.1 — Le centre de gravite est defini comme etant le point G tel que 

n 

y Pi Gui = o . 

i— 1 

Pour l’ACP, on choisit de donner le me me poids 1/n a tous les individus. Le centre 
de gravite du nuage des individus est alors le point dont les coordonnees sont les valeurs 
moyennes des variables : 

' 1 sr^n 




G = 


n L^i= 


1 *13 


law 

i x .i\ 


X% 7 


\ X *P/ 

Prendre G comme origine revient a travailler sur le tableau des donnees centrees 



/ X\1 — X,1 ■ 

• • x u 

• 

B 

X\ p 

a, 

• 

B 

1 •• 

= 

Xi\X%\ 

Xij 

.. | ., 

H 

• 

' * Xip 

.. 1 ., 

H 

• 

73 


\ X n \X*\ 

Xnj 

• 

B 

• • 1 

Xnp 

a, 

• 

B 

1 


et le vecteur des coordonnees centrees de l’individu Ui est 

(xn - x,i\ 

%i2 *£*2 


Ua = 


Xij X% 


\x 


ip 


X* p j 
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celui des coordonnees centrees de la variable Vj etant 


/ Xij - X.j\ 

I X 2j - x.j I 


Vcj 


Xij X 9 j 


\ X nj 


X 0 jJ 


12.4 Moments d’inertie 


12.4.1 Inertie totale du nuage des individus 

Definition 12.2 — On note Iq It moment d’inertie du nuage des individus par 

rapport au centre de gravite G, et on le definit ainsi : 


Ig 


-J2d 2 (G, m) 

i—l 
n p 

n Y, £(*« - *«j ) 2 

*= i j = i 


1 

n 


TJ * TJ ■ 

/ J ct cz 
i= 1 


Ce moment d’inertie totale est interessant car c’est une mesure de la dispersion du nuage 
des indivus autour de son centre de gravity. Si ce moment d’inertie est grand, cela signifie 
que le nuage est trfes disperse, tandis que s’il est petit, alors le nuage est trfes concentre sur 
son centre de gravite. 


Remarque — On peut voir, en inversant l’ordre des signes sommes, que Iq peut 
aussi s’ecrire sous la forme 


Ig = 



X,j) 


2 


oil Y (vj) est la variance empirique de la variable Vj. Sous cette forme, on constate que 
l’inertie totale est egale a la trace de la matrice de variance-covariance S des p variables 
v j '■ 

I G = tr(£) . 
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Ui 



Figure 12.2 — Inertie du nuage des individus. 


12.4.2 Inertie du nuage des individus par rapport a un axe passant 
par le barycentre 

Definition 12.3 — L’inertie du nuage des individus par rapport a un axe A passant 
par G est egale, par definition, a 

1 n 

I A — ^ ' d (JlAi, ^i) , 

i= 1 

ou tiAi est la projection orthogonale de ut sur I’axe A (cf. fig. 12.2). Cette inertie mesure 
la proximite a I’axe A du nuage des individus. 


12.4.3 Inertie du nuage des individus par rapport a un sous-espace 
vectoriel passant par le barycentre 

Definition 12.4 — L’inertie du nuage des individus par raport a un sous-espace 
vectoriel V passant par G est egale, par definition, a 

1 n 

Iv = - Y'' d 2 {h V i, uf) , 
n 

i — 1 

ou hyi est la projection orthogonale de sur le sous-espace V. 


12.4.4 Decomposition de l’inertie totale 

Si on note V* le compl^mentaire orthogonal de V dans R p et hy*i la projection ortho- 
gonale de Ui sur V* , en appliquant le th^orfeme de Pythagore, on peut £crire 

d {hyi, Ui ) -t - d {hy*i, Uj) — d“ {G , IXj) 

= d 2 (h Vi ,G) + d 2 (h VH ,G) . 


On en deduit le resultat suivant. 


Theoreme 12.1 (Huygens) — Nous avons 

I v + Iy* = Iq . 
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Figure 12.3 — Projection du nuage des individus sur un sous-espace. 


Dans le cas particulier ou le sous-espace est de dimension 1, c.-ct-d. est un axe, Iy* est 
une mesure de 1’allongement du nuage selon cet axe. On emploie pour Iy* les expressions 

d’inertie portee par Paxe ou bien d’inertie expliquee par 1’axe.. 

En projetant le nuage des individus sur un sous-espace V , on perd l’inertie mesuree par 
Iy, et l’on ne conserve que celle mesuree par Iy* (fig. 12.3). 

De plus, si on decompose l’espace comme la somme de sous-espaces de dimension 1 
et orthogonaux entre eux : 

Ar® A 2 ©---©A p , 

on peut ecrire 

Ig = I A* + I A * 2 + 1- I A* ■ 
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Realisation 


13.1 Recherche de l’axe passant par le barycentre et 
d’inertie minimum 


On cherche un axe Ai passant par G d’inertie /aj minimum car c’est l’axe le plus 
proche de l’ensemble des points du nuage des individus, et done, si l’on doit projeter ce 
nuage sur l’axe, c’est lui qui donnera l’image la moins deformee du nuage. Si on utilise la 
relation entre les inerties donnEe au paragraphe prEcEdent, rechercher Ai tel que I/\ 1 soit 
minimum, est Equivalent h rechercher Ai tel que /aj soit maximum. 

On dEfinit l’axe Ai par son vecteur directeur unitaire Ga\. II faut done trouver Ga \ tel 
que /aj soit maximum sous la contrainte que ||Gai|| 2 = 1. 

Nous avons : 

<P(G,h v *i) = (Gui, Ga[) 2 

= ci-^U c i U c i cl\ 


en utilisant la symEtrie du produit scalaire. 
Nous en dEduisons 


/a* = - V a\ U ci U, 

1 n ' 

,=i 

ri n 

EG c i U d 


t 

i CLl 


= 


i = 1 


di . 


Entre crochets, nous reconnaissons la matrice de variance- covariance empirique I] des p 
variables. 


et 


Ia$ = oj S oi 
||Gai|| 2 = a\ ai . 
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Le probleme a resoudre est done le suivant : trouver a\ tel que o^Sai soit maximum 
avec la contrainte a\ ai = 1. C’est le probleme de la recherche d’un optimum d’une fonction 
de plusieurs variables li£es par une contrainte — les inconnues £tant les composantes de 
a\. La methode cles multiplicateurs de Lagrange peut alors etre utilisee. II faut calculer les 
derivees partielles de 


9 (a l) = g(an, a 12 , . . . , a lp ) 

= a* S a i — Ai(a* ai — 1) . 


En utilisant la derivee matricielle, on obtient 


dg(a i) 

dai 


2Sui — 2Aiai 
0 . 


Le systfeme h resoudre est 

f Sui — Aidi = 0 (1) 

\ a\a i -1 = 0 (2) 

De F equation matricielle (1) de ce systeme, on cleduit que ai est vecteur propre de la 
matricc S associe a la valeur propre Ai. En multipliant a gauche par a\ les deux membres 
de liquation (1), on obtient 

CL — XiCl^CLi — 0 

et en utilisant (2) on trouve finalement que 


— Ai . 

On reconnait que le premier membre de cette clerniere equation est egal a l’inertie I a* , 
qui doit etre maximum. Cela signifie que la valeur propre Ai est la plus grande valeur propre 
de la matrice de variance-covariance S et que cette valeur propre est egale a l’inertie portee 
par l’axe Ap 

L’axe Ai pour lequel le nuage des individus a l’inertie minimum a comme vecteur 
directeur unitaire le premier vecteur propre associe a la plus grande valeur propre de la 
matrice de variance-covariance S. 


13.2 Recherche des axes suivant 


On recherche ensuite un deuxieme axe A 2 orthogonal au premier et d’inertie minimum. 
On peut, comme dans le paragraphe pr£c£dent, d^finir l’axe A 2 passant par G par son 
vecteur directeur unitaire a 2 . L’inertie du nuage des individus par rapport h son complti- 
mentaire orthogonal est egale a 

I a* = a\ S a 2 

et elle doit etre maximum avec les deux contraintes suivantes : 

J a\ a 2 = 1 
[ a\ a\ = 0 . 

La deuxieme contrainte exprime le fait que le deuxieme axe doit etre orthogonal au 
premier, et done que le produit scalaire des deux vecteurs directeurs est nul. En appliquant 
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la methode des multiplicateurs de Lagrange, cette fois avec deux contraintes, on trouve que 
02 est le vecteur propre dc S correspondant a la deuxieme plus grande valeur propre. On 
peut montrer que le plan defini par les axes et A 2 est le sous-espace de dimension 2 qui 
porte l’inertie maximum. 

On peut rechercher de nouveaux axes en suivant la meme procedure. Les nouveaux 
axes sont tous vecteurs propres de S, et ils correspondent aux valeurs propres ordonnees. 
La matrice de variance-covariance S etant une matrice symetrique reelle, elle possede p 
vecteurs propres reels, formant une base orthogonale de : 

f A| . A 2 • • ■ -L A p , 

I «1 1 (1 2 .1 ..... Up . 

I Ai ^ A 2 ^ ^ X p , 

{ I A! Ia* ■ 

On passera de la base orthogonale initiale des variables centrees a la nouvelle base 
orthogonale des vecteurs propres dc S. 


Definition 13.1 — On appelle les nouveaux axes axes principaux. 


13.3 Contributions des axes a l’inertie totale 

En utilisant le theoreme de Huygens, on peut decomposer l’inertie totale du nuage des 
individus : 

Ig = Ia\ + I A* + 1 - I A* 

= Ai + A 2 + • • • + X p ■ 

Definition 13.2 — La contribution absolue de I’axe A& a I’inertie totale du nuage 
des individus est egale a 

ca(A fc / Iq) = A k , 

qui est la valeur propre qui lui est associie. 


Definition 13.3 — Sa contribution relative est egale a 


cr(A fe / Iq) 


Afc 

Ai + A 2 + • • • + Xp 


Definition 13.4 — On emploie souvent V expression « pourcentage d’inertie 
expliquee par A^ ». 

On peut ^tendre ces definitions h tous les sous-espaces engendres par les nouveaux axes. 
Ainsi, le pourcentage d’inertie explique par le plan engendre par les deux premiers axes Ai 
et A 2 est egal a 

cr(Ar © A 2 / I G ) = . , y 1 T ^ i y ' 

Al + A2 i r Ap 
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Ces pourcentages d’inertie sont des indicateurs qui rendent compte de la variability du 
nuage des indi vidus expliquee par ces sous-espaces. Si les dernieres valeurs propres ont des 
valeurs faibles, on pourra n^gliger la variability qu’expliquent les axes correspondants. 

On se contente souvent de faire des reprysentations du nuage des individus dans un 
sous-espace engendre par les d premiers axes si ce sous-espace explique un pourcentage 
d’inertie proche de 1. On peut ainsi reduire l’analyse a un sous-espace de dimension d < p. 


13.4 Representation des individus dans les nouveaux 
axes 

Pour faire les representations des individus dans les plans definis par les nouveaux axes, 
il suffit de calculer les coordonnyes des individus dans les nouveaux axes. Pour obtenir y^, 
coordonnye de l’unity i sur l’axe A*,, on projette orhtogonalement le vecteur Gm sur cet 
axe et on obtient 


y = (Gui, at) 

— ^ k ^ "ci 


et 


v. — A 1 TT ■ 

1 l — ^ CX 1 

ou Yi est le vecteur des coordonnees de 1 ’unite m et A est la matrice du changement de 
base - A , matrice des vecteurs propres de norme 1, est orthogonale 1 . 

Remarque — L’orientation des axes est completement arbitraire et peut differer 
d’un logiciel a F autre. Le signe des coordonnees des individus sur un axe n’a done pas de 
signification. En revanche, la comparaison des signes peut s’interpreter. Si deux individus 
Ui et up ont, sur un axe A, le premier une coordonnyes positive et le second une coordonnye 
nygative, cela signifie qu’ils s’opposent sur cet axe. 


13.4.1 Qualite de la representation des individus 

Lorsque des points projections des individus sont eloignes sur un axe (ou sur un plan), 
on peut assurer que les points representant ces individus sont eloignes dans l’espace. En 
revanche, deux individus dont les projections sont proches peuvent ne pas etre proches dans 
l’espace. 

Pour interpryter correctement la proximity des projections de deux indiviidus sur un 
plan, il faut done s’assurer que ces individus sont bien representes dans le plan. Pour que 
l’individu u t soit bien represente sur un axe (ou un plan, ou un sous-espace), il faut que 
l’angle entre le vecteur Dm et l’axe (resp. le plan, le sous-espace) soit petit. On calcule done 
le cosinus de cet angle, ou plutot le carre de ce cosinus. En effet, en utilisant le theoreme 
de Pythagore, on peut montrer que le carre du cosinus de l’angle d’un vecteur avec un plan 
engendre par deux vecteurs orthogonaux, est egal a la somme des carres des cosinus des 

1. Son inverse est egale a sa transposee. 
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angles du vecteur avec chacun des deux vecteurs qui engendrent le plan. Cette propriety se 
generalise a l’angle d’un vecteur avec un sous-espace cle dimension k quelconque. 

Si le carre du cosinus de Tangle entre Gu,; et l’axe (resp. le plan, le sous-espace) est 
proche de 1, alors on pourra dire que l’individu Ui est bien represente par sa projection sur 
l’axe (resp. le plan, le sous-espace). Et si deux individus sont bien representes en projection 
sur un axe (resp. le plan, le sous-espace) et s’ils ont des projections proches, alors on pourra 
dire que ces deux individus sont proches dans l’espace. Le carre du cosinus de Tangle 
entre Gui et un axe A fc de vecteur directeur unitaire a*, est egal h 


COS (d?;fc) — 


{Gu u Ga k ) 2 

IIG^II 2 

dj. U c i Uci &k 

TJ • * TJ ■ 

y '. j — I (%ij ^z») Ctkj 


x i») 


En utilisant le tlieoreme de Pythagore, on peut calculer le carre du cosinus de Tangle 
otikk 1 entre Giq et le plan engendre par deux axes A*, © A*,/ : 

cos 2 (a ifc fc') = cos 2 (a ife ) +cos 2 (a ife /) . 


Si, apres l’etude des pourcentages d’inertie expliquee par les sous-espaces successifs 
engendres par les nouveaux axes, on a decide de ne retenir qu’un sous-espace de dimension 
d < p, on pourra calculer la quality de la representation d’un individu iq en calculant le 
carre du cosinus de Tangle de Gui avec ce sous-espace. 


Remarque Si un individu est tres proche du centre de gravite dans l’espace, c.- 
h-d. si ||Giq|| 2 est tres petit, le point representant cet individu sur un axe (un plan, un 
sous-espace) sera bien represente. 


13.4.2 Interpretation des nouveaux axes en fonction des individus 


Lorsqu’on calcule l’inertie 1 a* portee par l’axe A^, on peut voir quelle est la part de 
cette inertie due h un individu iq particular. 

1 " 

Ja* etant egale a — ^]d 2 (lA fci , G), la contribution absolue de it* a cette inertie est 
71 2=1 

egale a 

ca (ui / A fc ) = -d 2 (ZiAfei, G) , 
n 


puisque tous les individus ont le meme poids. Un individu contribuera d’autant plus a la 
confection d’un axe que sa projection sur cet axe sera eloignee du centre de gravite du 
nuage. Inversement, un individu clont la projection sur un axe sera proche du centre de 
gravite contribuera faiblement a l’inertie portee par cet axe. On se sert de ces contributions 
pour interpreter les nouveaux axes de l’ACP en fonction des individus. 
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On peut aussi, pour un individu particulier iq, donner sa contribution relative a l’inertie 
portee par cet axe : 


cr(A fc / I G ) 


k d 2 (hA ki ,G ) 
i 

(Guj, Gal ) 2 

Afc 

Qf. U c i U c i (Ifc 

Afc 


L’examen de ces contributions permet d’interpreter les axes principaux avec les indivi- 
dus. 


13.5 Representation des variables 


On peut envisager le probleme de la representation des variables de fagon completement 
symetrique de celui des individus. Les raisonnements se font dans au lieu de Mais 
dans l’ACP, au-dela de la symetrie formelle entre les individus et les variables, on peut 
utiliser la dissymetrie liee a la semantique : les variables n’ont pas la meme signification 
que les individus. On peut alors faire le raisonnement suivant : on a represente les individus 
dans l’espace des anciennes variables, et on a fait un changement de base dans cet espace. 
Les nouveaux axes sont des combinaisons lineaires des anciens axes et peuvent done etre 
consideres comme de nouvelles variables combinaisons lineaires des anciennes. On appelle 
communement ces nouvelles variables composantes principales. 

On note Zi,Z 2 , • • ■ , Z p les composantes principales, Z *. etant la nouvelle variable cor- 
respondant h l’axe Afc : 


v 

Zk — 'y ^ O'kj Vcj 

3 = 1 

— X c (Xfz 

et de fagon generale 

Z = (Zi Z2 ... Zk ... Z p ) 

= x c A 

— X c cik - 

II est alors interessant de voir comment les anciennes variables sont liees aux nouvelles : 
pour ce faire, on calcule les correlations des anciennes variables avec les nouvelles. La 
representation des anciennes variables se fera en prenant comme coordonnees des anciennes 
variables leurs coefficients de correlation avec les nouvelles variables. On obtient alors ce 
que l’on appelle communement le cercle des correlations (fig. 13.1), denomination qui 
vient du fait qu’un coefficient de correlation variant entre -1 et 1, les representations des 
variables de depart sont des points qui se trouvent a l’interieur d’un cercle de rayon 1 si on 
fait la representation sur un plan. 
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Ao 


1 



-i | 

Figure 13.1 — Cercle cles correlations. 


On peut montrer que 

V (Z k ) = ^a\XlX c a k 
= a\ £ a k 

= A k , 
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Co v(Z k ,V cj ) = -alX*V cj 

(t\ 


= a* k X* X c 


0 

1 

0 


Vo J 

(t\ 



0 

1 

0 


vo; 


— A k Ofc 


0 

1 

0 


vo; 


— Afc CLkj • 


Enfin, 

Corr (Z k , V cj ) = ^X~ k -^= , 

oil a k j est la j e coordonnee du vecteur directeur unitaire a k de A* . 

De fagon generate, la matrice de variance-covariance des composantes principals est 
egale a : 


Sz = -A'XlXcA 

n 

= -A t S A 

n 

= A, 


oil A est la matrice diagonale des valeurs propres de £ : 
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et la matrice des covariances entre les composantes principales et les anciennes variables 
vaut 

Cov (Z, V ) = -X* X c A 

n 

= S A 
= A A . 

Si l’on remarque que la variance empirique d’une variable est egale au carre de la norme 
du vecteur qui la represente dans la geometrie euclidienne choisie et que le coefficient de 
correlation empirique de deux variables est egal au produit scalaire des deux vecteurs qui 
les representent, on pourra interpreter les angles des vecteurs comme des correlations. 


13.5.1 Interpretation des axes en fonction des anciennes variables 

On peut interpreter les axes principaux en fonction des anciennes variables. Une an- 
cienne variable Vj expliquera d’autant mieux un axe principal qu’elle sera fortement correiee 
avec la composante principale correspondant & cet axe. 


13.5.2 Qualite de la representation des variables 

Pour les memes raisons qui ont pousse h se prfioccuper de la qualie de la representation 
des individus, il faut se preoccuper de la qualite de la representation des variables sur un 
axe, un plan ou un sous-espace. Une variable sera d’autant mieux representee sur un axe 
que sa correlation avec la composante correspondante sera, en valeur absolue, proche de 
1. En effet, le coefficient de correlation empirique entre une ancienne variable V C j et une 
nouvelle variable Z \ n’est autre que le cosinus de l’angle du vecteur joignant l’origine du 
point Vj reprfisentant la variable sur l’axe, avec cet axe. 

Une variable sera bien representee sur un plan si elle est proche du borcl du cercle des 
correlations, car cela signifie que le cosinus de Tangle du vecteur joignant l’origine au point 
representant la variable avec le plan est, en valeur absolue, proche de 1. 

Le rneme raisonnement demeure pour la representation d’une variable sur un sous- 
espace. 


13.5.3 Etude des liaisons entre variables 

Sur le graphique du cercle des correlations, on peut aussi interpreter les positions des 
anciennes variables les unes par rapport aux autres en terme de correlations. Ainsi, soient 
deux points tres proches Tun de T autre et tres proches, egalement, du cercle des correla- 
tions : les variables correspondant a ces points sont bien representees dans le plan et tres 
correiees positivement. Si deux variables sont proches du cercle, mais dans des positions 
symetriques par rapport h l’origine, elles seront tres correiees negativement. 

Deux variables proches du cercle des correlations et dont les vecteurs qui les joignent a 
l’origine forment un angle droit, ne seront pas correiees entre elles. 

II faut, pour interpreter correctement ces graphiques des cercles des correlations, se 
souvenir qu’un coefficient de correlation est une mesure de liaison lineaire entre deux va- 
riables, et qu’il peut arriver que deux variables tres fortement liees aient un coefficient de 
correlation nul ou tres faible, si leur liaison n’est pas lineaire. 
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13.6 Analyse en composantes principales normee 

Dans les paragraphes precedents, nous avons etudie l’ACP simple, pour laquelle : 

— tous les indi vidus ont le meme poids dans 1’ analyse ; 

toutes les variables sont traitties cle fagon sym6trique (on leur fait jouer le meme 
role) ; 

les nouveaux axes sont issus cle la matrice de variance-covariance empirique des 
variables. 

Cela pose parfois des problemes. Le premier reproche fait par des praticiens est que, si 
les anciennes variables sont heterogfenes, comme par exemple des poids, des tailles et des 
ages, quel sens peut-on donner aux composantes principales qui sont alors des combinaisons 
lineaires de variables heterogenes ? Le deuxieme reproche est que, si on change d’unite sur 
ces variables, on peut changer completement les resultats de l’ACP. Le dernier reproche 
vient clu fait qu’une variable contribuera d’autant plus a la confection des premiers axes 
que sa variance sera forte. 

Pour 6chapper h tous ces probl&mes, on cherchera h normaliser les variables et h tra- 
vailler sur des variables sans dimension. II y a plusieurs fagons de normaliser les variables, 
mais la plus couramment utilisee est celle qui consiste a diviser les valeurs des variables par 
leur ecart-type, c.-a-d. que l’on travaille sur des variables centrees et reduites. 

Cela revient a faire la meme analyse que pour l’ACP simple, mais a choisir une autre 
distance euclidienne entre les individus que la distance euclidienne classique. La distance 
choisie est alors 



Cette nouvelle distance ne traite plus les variables de fagon symetrique, mais elle permet 
de faire jouer un role plus equitable a chacune d’entre elles. 

Si on reprend tous les calculs de l’ACP simple, mais en remplagant les variables de 
depart par les variables centrees reduites, on voit que ce n’est plus la matrice de variance- 
covariance, mais la matrice de correlation R qui intervient dans la recherche de nouveaux 
axes. Les particularites de l’ACP normee par rapport h l’ACP simple proviennent du fait 
que la matrice de correlation R n’a que des 1 sur sa diagonale principale. Cela entraine que 
sa trace est toujours egale a p. Or on a vu que la trace de la matrice est egale a l’inertie 
totale du nuage calcuiee avec la distance euclidienne que l’on a choisie. L’inertie totale du 
nuage des individus dans est done toujours egale h p dans toute ACP normee. 

Cette particularite donne une regie supplement aire pour choisir le nombre d’axes que 
l’on va garder pour les interpretations, fondee sur le raisonnement suivant : 

— on a p valeurs propres dont la somme vaut p; 

on peut ne considerer comme significatives que les valeurs propres dont la valeur est 
superieure h 1, puisque la valeur moyenne moyenne des valeurs propres vaut 1 et 
leur somme p. 

C’est bien sur une regie empirique, mais elle peut servir de guide pour le choix de la 
dimension du sous-espace que l’on veut garder. 

Une autre particularite de l’ACP normee est que la representation des variables avec 
les cercles de correlation correspond exactement a la representation des variables dans K” 
que l’on aurait construite si l’on avait adopts la meme demarche que celle qui a servi pour 
la representation des individus dans R p . 
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13.7 Individus et variables supplementaires 


II arrive que l’on veuille faire apparaitre dans les representations graphiques certains 
individus sans qu’ils interviennent dans la determination des axes. Cela peut etre le cas de 
nouveaux individus que l’on veut simplement positionner par rapport aux autres sans que 
les positions de ceux-ci soient influences par les nouveaux. On dit d’eux qu’ils sont des 

individus suppldmentaires. 

II en est de meme pour les variables. On peut, par exemple, vouloir reprtisenter une 
variable qui depend de fagon synthetique des p variables choisies pour faire l’ACP, afin de 
mieux comprendre comment cette variable est liee aux anciennes, mais on ne souhaite pas 
qu’elle intervienne dans la confection des axes car ses liaisons avec les p variables de depart 
fausseraient la representation si elle faisait partie integrante de l’ACP. Elies sont appelees 
variables supplemantaires. 

Pour reprdsenter un individu suplementaire. il suffit d’exprimer les coordonn^es de cet 
individu dans la nouvelle base des axes principaux. Pour une variable supplemantaire, il 
suffit de calculer ses coefficients de correlation empiriques avec les composantes principals . 
La plupart des logiciels proposent des options permettant de le faire. 
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Introduction 


Dans le cas des experiences en champ, on entend classiquement par bloc un ensemble de 
parcelles voisines et trfes semblables les lines aux autres, quant aux conditions de croissance 
et de clfiveloppement de la v6g£tation. 

Ces blocs sont dits complets quand tous les objets mis en experience sont presents 
dans chacun d’eux, le nombre de parcelles etant alors au moins egal au nombre d’objets. 

Ces blocs sont dits equilibres lorsque, Vi ,j — indices de ligne et de colonne — , 


Parmi les plans d’experience equilibres, on trouve les cas de figure oil : 

chaque n, 7 - vaut 1 — une seule mesure est faite pour chaque couple de niveaux : il 
n’y a pas de repetition ; 

tous les couples sont repetes un meme (et unique) nombre de fois : Vz, j, riij = 4 par 
exemple ; 

- les blocs sont du type : 

Facteur A 



1 

2 

3 

4 

1 

1 

1 

1 

2 

Facteur B 2 

1 

1 

1 

2 

3 

3 

3 

3 

6 


c.-a-cl. que l’on a en quelque sorte repete deux fois la 4 e colonne et trois fois la 3 e 
ligne. 

La repartition des objets au sein des differents blocs se fait normalement de fagon 
completement aleatoire et independamment d’un bloc a l’autre, d’oii la notion de blocs 
aleatoires complets, aussi appeles blocs randomises. 

Enfin, en presence de plusieurs facteurs, nous parlons d’experiences factorielles 
(completes) lorsque chacune des modalittis d’un facteur est associ^e h chacune des moda- 
lites de l’autre ou des autres facteurs. 

Concernant les facteurs etudies, s’ils sont tous fixes, nous parlons de modele d’analyse 
de la variance (ANOVA) ; si l’un de ces facteurs est aleatoire, alors nous parlons de 
modele de composantes de la variance. Un module comportant des effets fixe(s) et 
al6atoire(s) est appelf: modele mixte. 
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Sans effet aleatoire 


15.1 Un critere de classification ( One-way ) 

Soient n observations reparties en g groupes, et y-ij l’observation concernant la i e obser- 
vation du j e groupe. Chaque groupe contient rij observations. Le modele s’ecrit 

Uij — 9 + Oij + €ij . 

ou j = 1, . . . , g et i = 1, . . . , rij. Dans ce module, ay reprtisente l’effet du groupe j. Par 
ailleurs, nous supposons que les e*y sont supposes i.i.d. de loi J\f( 0, it 2 ), et que J2j = i a j ~ 
ceci afin d’eviter la surparametrisation du modele. 


Facteur A 


1 

2 

9 

(1) /i + dl 

(1) g, + a 2 


(1) y + a g 

(n i) fi + ai 

(n 2 ) H + «2 


(' n g ) y + a g 


Figure 15.1 — Plan d’experience a un critere de classification. 


On note respectivement 


^ c j g n J 

y.j = — E^ et y__ = 

'*"] ■ t 10 . 

J 2=1 J = 1 2=1 


la moyenne du groupe j et la moyenne sur l’ensemble de l’echantillon. 

On note egalement 

g rij g rij g rij 

SCA = E X>b - y.f - sce = £ - !Ll )- , sct = ■ 

j = 1 2=1 j = 1 2=1 j — 1 2=1 


134 




15. SANS EFFET ALtATOIRE 


L’ANOVA peut alors se resumer au tableau 15.1. 


Table 15.1 — Table d’ANOVA & un critfere de classification. 


Source 

ddl 

sc 

MC 


F 

Facteur A 

9- 1 

SCA 

MCA = 

SCA / (g - 1) 

MCA / MCE 

Erreur 

n-g 

SCE 

MCE = 

SCE / (n - g) 


Total 

n — 1 

SCT 





La statistique employee pour tester l’effet du facteur A — c.-ct-d. pour tester 1’hypothSse 
nulle d’egalite des moyennes 1 — est 


Fa 


MCA 

MCE 


F(g - 1 , n 


9 ) • 


Pour un seuil a fixe, la table donne u a tel que 

P[-Pa(s - 1 , (n ~ g)) > u a ] = a. 
Le test au seuil a s’6crit : 


Rejet de H 0 <=> Fa > u a . 


Estimation de la variance Sous l’hypothfese d’homog6n6it6 des variances, le meilleur 
estimateur non biais^ de a 2 est 

2 SCE 

s“ = 

n-g 

= — [(m - l)si + (n 2 - l)s 2 4 \-(n g -l)s 2 

n — n a 


Exemple — Voici la consommation de menages, enregistree dans differentes regions, 
suite a la diffusion de quatre spots de publicite. Le but de F etude est de comparer l’impact 
des quatre spots. Le tableau originel est donne en annexe (cf. p. 179). 

Nous obtenons : 

> aov (Conso~f actor (Pub) , consomenage) 

> Terms : 

factor (Pub) Residuals 
Sum of Squares 4585.68 56187.44 

Deg. of Freedom 3 116 

Residual standard error: 22.00851 
Estimated effects are balanced 


1. On la note souvent Hq : a i = ■ ■ ■ = a g = 0. 


Probabilities et Statistique 


135 


15. SANS EFFET ALffATOIRE 


> summary (aov(Conso~factor(Pub) , consomenage) ) 

> Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Pub) 3 4585.68 1528.560 3.15574 0.02749209 

Residuals 116 56187.44 484.375 

Au seuil cle 5 %, nous en deduisons que les spots publicitaires ont un effet significatif 
sur la consommation (en effet, 0,027 = 2,7 % < 5 %). Nous obtenons par ailleurs une 
estimation de la variance £gale h 484,37. 


15.2 Comparaisons multiples 


Lorsque l’hypothbse nulle est rejet^e, une question s’ensuit : « quels sont les groupes 
dont les moyennes different? ». Pour repondre a cette question, il faut utiliser l’une des 
procedures de comparaison multiple etablies ; parmi celles-ci, citons : 

— la procedure LSD ( Least significant difference ) ; 
la procedure LSD de Fisher ; 

— la procedure de Bonferroni ; 

— la procedure de Sidak ; 

— la procedure de Tukey ; 
la procedure dite GT2 ; 

— la procedure de Gabriel ; 

la procedure Dunkan (S-N-K et REGW) ; 

— la procedure par contrastes. 


Exemple — La comparaison multiple des spots publicitaires, sous S-Plus, avec la 
procedure de Sidak, est r6alis£e ainsi : 

> temp_aov(Conso~f actor (Pub) , consomenage2) 

> multicomp (temp, focus="f actor (Pub) " , bounds= " lower " , control=l, plot=T, 

> method="sidak" ) 

> 95 7, simultaneous confidence bounds for specified 
linear combinations, by the Sidak method 

critical point: 2.4195000000000002 
response variable: Conso 

bounds excluding 0 are flagged by ’****’ 



Estimate Std. 

, Error 

Lower Bound 

1-2 

-2.41 

5.68 

-16.20 

1-3 

2.29 

5.68 

-11.50 

1-4 

-13.80 

5.68 

-27.50 

2-3 

4.70 

5.68 

-9.05 

2-4 

-11.40 

5.68 

-25.10 

3-4 

-16.10 

5.68 

-29.80 
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1-2 

1-3 

1- 4 

2- 3 

2- 4 

3- 4 


-30 -25 -20 -15 -10 -5 0 5 

simultaneous 95 % confidence limits, Sidak method 
response variable: out 


Figure 15.2 — Comparaison multiple suivant la procedure de Sidak. 


( 


! * 


( 

4 
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■ ♦- 

1 1 1 1 1 

" 


et le graphique obtenu est celui de la figure 15.2. 


15.3 Respect de l’hypothese d’homogeneite des va- 
riances 

Parmi les tests d’homogeneite des variances, citons : 

— le test de Bartlett ; 

— le test de Hartley ; 

— le test de Cochran ; 

Ces tests sont trfes sensibles h l’hypothfese de normality. Aussi, d’autres procedures 
— non parametriques celles-ci — existent, parmi lesquelles : 

— la methode de Levene ; 

— la methode par jackknife ; 

— la methode basee sur les rangs. 


15.4 Deux criteres de classification ( Two-way ) 

Une seconde variable qualitative est introduite dans le plan d’experience. Distinguons 
alors : 

le cas ou cette variable represente une caracteristique de chaque cellule experimen- 
tale, censee tenir compte d’un manque d’homogeneite entre les diferentes cellules 
experimentales : nous parlons alors de blocs aleatoires ( randomized block design ) ; 

le cas ou cette variable supplementaire represente un second type de traitement ou 
facteur : nous parlons alors de modele a deux facteurs ( two factors model). 
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15.4.1 Blocs aleatoires ( Randomized block design ) 

Les unites exp^rimentales sont divisties en b blocs de telle sorte que les unites d’un meme 
bloc soient relativement homogfenes. Chaque bloc contient g unites exp^rimentales. Chaque 
unite experimentale d’un bloc est affectee aleatoirement a l’un des g groupes. Le but de ce 
type d’experimentation est de retirer de la variance intra-groupe la variability attribuable 
aux b blocs. 

Le module s’ticrit 

Uij g A atj T Pi T 

pour i = 1, . . . , b et j = 1, . . . , g. On suppose que : 

g b 

Y a .i = 0 ’ Y& = 0 ’ e b A/ ’(°> ct2 ) ■ 

0=1 i= 1 


Blocs 


Facteur A 


1 2 ... g 


1 

[1 ~\~ OL 1 + (3\ 

fl + 012 + Pi 


g, + a g + Pi 

2 

[1 ~\~ + /?2 

g + a 2 + /?2 


g + a g + @2 






b 

g + a.\ + (3b 

g + a .2 + fib 


g + a g + p b 


Figure 15.3 — Plan d ’experience it deux entires de classification. 


On note 


= ;£ 


b 


1 9 1 b 9 

yn - Vi. = -Yw ’ v.. = t ~YY w > 

y j = i y i = i j = i 


SCA = b'Y'iVj.-V.f , SCB = gYiVi.-V.) 

3=1 i= 1 

b g b g 

SCE = EE ( yij - y.j - Vi. + y..) 2 , sct = EEfe-i ) 2 

2=1 j = 1 2=1 j = 1 


La table de l’ANOVA est donnee par 15.2. 


Table 15.2 — Table de l’ANOVA a deux criteres de classification. 


Source 

ddl 

SC 

MC 


F 

Facteur A 

9- 1 

SCA 

MCA = 

SCA / (g - 1) 

MCA / MCE 

Blocs 

6 — 1 

SCB 

MCB = 

SCB / (6- 1) 

MCB / MCE 

Erreur 

Total 

(<? -!)(&-!) 
gb-l 

SCE 

SCT 

MCE = 

SCE / (g — 1) 
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La statistique employee pour tester l’effet du facteur A (effet groupe) est 


Fa 


MCA 

MCE 


F(g-l,(g-l)(b-l)). 


La statistique employee pour tester l’effet « Blocs » est 


F b 


MCB 

MCE 


F(b- 1 , (g- 1)(6 — 1)). 


Exemple — Une partie des donnees permet d’illustrer l’ANOVA en blocs alea- 
toires : nous nous interessons uniquement aux menages ne contenant qu’une seule personne. 
L’ANOVA porte done sur un tableau 4x5, puisqu’il y a un seul menage (d’une unique 
personne) par region (et 5 regions), ayant vu les 4 spots publicitaires. 

Le resultat est le suivant : 

> consomenage2_consomenage [consomenage$taille==l , ] 

> summary (aov(Conso~f actor (Pub) +f actor (Region) , consomenage2) ) 

> Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Pub) 3 332.8289 110.9430 2.611035 0.09954666 

factor (Region) 4 663.6414 165.9104 3.904688 0.02955505 

Residuals 12 509.8804 42.4900 

L’liypotliese nulle d’egalite des 4 moyennes (correspondant aux spots) peut etre rejettie 
au seuil de 10 % (mais pas au seuil de 5 %), et celle d’egalite des 5 moyennes (correspondant 
aux regions) au seuil de 3 %. 

Une comparaison multiple des 4 moyennes correspondant aux publicites, par la methode 
LSD, conclut h une moyenne plus importante pour la publicity 4 au seuil de 5 %. Par contre, 
la procedure de Tukey conclue h 1’ absence de difference significative entre ces 4 moyennes. 

Une comparaison multiple peut egalement etre conduite pour les 5 moyennes par region. 


15.4.2 Deux facteurs ( Two-way factorial design ) 

Nous nous interessons a la relation entre une variable clependante Y et deux variables 
qualitatives. Nous supposons que le premier facteur presente g niveaux et le second b. Nous 
supposons egalement que c observations sont aleatoirement tirees dans chaque cellule, ce 
qui donne au total g x b x c observations. 

Le module s’ecrit : 

Vij /t A cXj 4" A ( (xfi ) ij A e ij , 

pour i = 1, . . . , b, j = 1, . . . , g, k = 1, . . . , c. On suppose que 

g b g b 

= ^2 & = = 0 » <Ufc J\f(0,a 2 ) . 

j— i g- 1 j= i *=i 
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Facteur A 

1 2 ... g 


1 

(1) /i T ol\ T /?i 

(c) n + ai+ fti 

(1) g + a 2 + Pi 

(c) [1 + C *2 + Pi 


(1) /j, + a g + Pi 

(c) g + a g + Pi 


(1) /i + a\ + /?2 

(1) g + a 2 + P 2 


(1) g + a g + P 2 

Facteur B 2 






(c) g + a\ + 

(c) /i + a 2 + P 2 


(c) g, + a g + P 2 






b 

(1) g + ai + Pb 

(1) fl + a2 + Pb 


(1) g + ctg + pb 


(c) fj, + a± + Pb 

(c) g (X 2 T Pb 


(c) g + a g + Pb 


Figure 15.4 — Plan d’exptirience & deux facteurs. 


On note 


g b b g 

SCA = be >>,. U..f , SCB = gcJ2(y t .-y...) 2 , SCAB = c£Z>(y«. -y, 

j—1 i= 1 i = 1 j—1 

SCE = E E X>«* - %) 2 SCT = E E E(y«* - y ...) 2 • 

2=1 J = 1 fc=l 2=1 J = 1 fc=l 


La table de l’ANOVA est ecrite ci-dessous (cf. tab. 15.3). 


Table 15.3 — Table de l’ANOVA & deux facteurs. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

g- 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCE 

Facteur B 

6-1 

SCB 

MCB = SCB / (6 - 1) 

MCB / MCE 

Inter. AB 

(g-l)(b-l) 

SCAB 

MCAB = SCAB / (g - 1)(6 - 1) 

MCAB / MCE 

Erreur 

bg{c - 1) 

SCE 

MCE = SCE / bg{c - 1) 


Total 

bgc — 1 

SCT 




La statistique employee pour tester l’effet du facteur A (effet groupe) est 

MCA 


Fa = 


MCE 


F{g- 1 , gb{c- 1)) . 


La statistique employee pour tester l’effet du facteur B (effet traitement) est 

MCB 


F b = 


MCE 


F(b- 1 , gb{c- 1)) . 
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La statistique employee pour tester l’interaction AB est 


-Fab 


MCAB 

SCE 


F((g - !)(F - 1 ) , gb(c - 1 )) . 


Exemple — Void l’ANOVA realisee sous S-Plus : 

> summary (aov(out~f actor (Pub) +f actor (Region) +f actor (Pub) : factor (Region) , consomenage) ) 

> Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Pub) 3 4585.68 1528.560 3.606625 0.01600132 

factor (Region) 4 4867.51 1216.878 2.871213 0.02680049 

factor (Pub) : factor (Region) 12 8937.92 744.8261.7574120.06584027 

Residuals 100 42382.02 423.820 

Nous en deduisons que les deux effets principaux sont significatifs ; par contre, leur 
interaction ne l’est pas. 


15.4.3 Emboitement a un niveau ( Two-way nested design ) 

Contrairement au paragraphe precedent, il n’est plus ici possible d’assigner aleatoire- 
ment les g niveaux du facteur A h chaque bloc. II s’avfere obligatoire de restreindre certains 
niveaux du facteur A h certains blocs en particular. Nous parlons ici de plan d’experience 
avec emboitement ou encore de plan d’experience hierarchique. 


Blocs 


Facteur A 

1 2 3 ... g 


(1) fi + a\ + f3\ 

( c ) /i + Q i + f3\ 




( 1 ) g + OL g + (3\ 

(c) g + a g + pi 


(1) g + a 2 A j3 2 

(c) g + ai 2 + /?2 











( 1 ) n + ai3 + /3b 

(c) g, + 03 + f3b 




Figure 15.5 — Plan d’expdrience avec emboitement. 


Le modele s’ecrit : 


Vijk — g A Pi A Otij A £ijk - 

pour i = 1, . . . , 6 , j = 1, . . . , g, k = 1, . . . , c. On suppose que 




b 9 

E E °a 


»= i j = i 


= 0 , 


Hjk Af( o, cr 2 ) . 
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On note : 

9 

SCA = bc^iv.j.-y...) 2 , SCB(A) 

3 = 1 

SCE = EEE (%*-%) 2 SCT 

i—1 j = 1 k— 1 

La table cle l’ANOVA est donnee ci-dessous. 


c EE(%-».i .) 2 > 

»=1 ./'-I 

EEE(%fc-y ...) 2 ■ 

i—l j= 1 fc=l 


Table 15.4 — Table de l’ANOVA avec emboitement. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

g - 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCB(A) 

Facteur B emboite dans A 

gib- 1) 

SCB(A) 

MCB(A) = SCB(A) / g(b - 1) 

MCB(A) / MCE 

Erreur 

gb(c- i) 

SCE 

MCE = SCE / gb(c - 1) 


Total 

gbc - 1 

SCT 




La statistique de Fisher testant l’effet du traitement A vaut 

MCA 


F a = 


MCB(A) 


F (g - 1 , g(b-l)) . 


La statistique de Fisher testant l’effet du traitement B vaut 

MCB(A) 


l'\> — : — — — > 

B MCE 


F(g(b- 1) , gb(c- 1)) 


Remarque — L’effet du facteur A est teste en comparant la variance inter-groupe 
h celle due aux sous-groupes reprtisenttis par le facteur B. En effet, on cherche h tester 
isol^ment l’effet du facteur A proprement dit : dans ce cas, l’« erreur » due au sous-facteur 
( B ) doit etre incorporee au terme d’erreur du rapport de Fisher. Si tel n’etait pas le cas, 
on testerait l’effet du facteur A par rapport aux residus apres avoir ote l’effet de ce facteur 
et celui du sous-facteur. 

Exemple — Considerons cles moustiques places dans cles cages, sur chacun desquels 
sont realisees deux mesures independantes. L’emboitement est « moustique dans cage ». 
Les donnees sont : 


Cage 1 Cage 2 Cage 1 

1 2 3 4 I 2 3 4 I 2 3 4~ 

MA 7A8 84~0 70A 693 563 5ff7 633 563 773 693 623 

59,5 80,9 83,6 68,3 69,8 54,5 49,3 65,8 57,5 79,2 69,2 64,5 
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Deux facteurs, l’un emboite dans Pautre L’analyse par S-Plus donne : 

> summary (aov(Valeur ~ factor(Cage) + Error (factor(Cage)/f actor (Moust) ) , moustiques)) 
Error: factor (Cage) 

Df Sum of Sq Mean Sq 
factor (Cage) 2 665.6758 332.8379 

Error: factor (Moust) %in°/ 0 factor (Cage) 

Df Sum of Sq Mean Sq F Value Pr(F) 

Residuals 9 1720.677 191.1864 

Error: Within 

Df Sum of Sq Mean Sq F Value Pr(F) 

Residuals 12 15.62 1.301667 

Pour tester l’« effet cage » sur les mesures, nous 6crivons : 

> 332.8379/191.1864 
[1] 1.740908 

> 1-pf (1.740908,2,9) 

[1] 0.229531 

qui nous indique que cet effet n’est pas significatif. 

Pour tester l’« effet moustique » sur les mesures, nous ecrivons : 

> 191.19/1.30 
[1] 147.0692 

> 1-pf (147.0692,9,12) 

[1] 6 . 927803e-011 

qui nous indique que cet effet est hautement significatif. 

Concernant les composantes de la variance : 

la variance s 2 due a l’erreur (c.-a-cl. entre les deux mesures realisees sur un meme 
moustique) vaut 1,30 ; 

la variance s 2 B ^ entre les sous-groupes (moustiques) emboit^s dans les groupes 
(cages) vaut (191,19 — l,30)/2 = 94,94; 

la variance s\ entre les groupes (cages) vaut (332,84 — 191,19) /8 = 17,71 ; 
la variance totale vaut 1,30 + 94,94 + 17,71 = 113,95. 

Nous pouvons done affirmer que : 

s 2 represente 1,30/113,95 = 1,1 % de la variance totale; 
s s(A) re pr6sente 94,94/113,95 = 83,3 % de la variance totale ; 
s\ reprtisente 17,71/113,95 = 15,6 % de la variance totale. 

Remarquons que : 

Y (Y) = cr + a 2 B ( A ) + cr\ , 

V (Y | A) = a 2 + , 

Y(Y\A,B) = a 2 . 
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Ignorance du facteur « Cages » Les donnees sont alors de la forme suivante : 


1-1 

1-2 

1-3 

1-4 

2-1 

2-2 

2-3 

2-4 

3-1 

3-2 

3-3 

3-4 

58,5 

77,8 

84,0 

70,1 

69,8 

56,0 

50,7 

63,8 

56,6 

77,8 

69,9 

62,1 

59,5 

80,9 

83,6 

68,3 

69,8 

54,5 

49,3 

65,8 

57,5 

79,2 

69,2 

64,5 


En r£6crivant le fichier de donnees comme indiqu6 en annexe, l’analyse donne : 

> summary (aov(val ~ factor (Mesure) , moustiques)) 

Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Mesure) 11 2386.353 216.9412 166.6642 2 . 328582e-011 

Residuals 12 15.620 1.3017 


Ignorance du facteur « Moustiques » L’analyse donne : 

> summary (aov(val ~ factor (cage) , moustiques)) 

Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Cage) 2 665.676 332.8379 4.025575 0.03311979 

Residuals 21 1736.297 82.6808 


15.4.4 Analyse de la covariance (AN C OVA) 

Lorsqu’une variable intervenant en tant que facteur est quantitative, et non plus qua- 
litative, nous parlons d’analyse de la covariance (ANCOVA). Chaque observation consiste 
en une paire (yij, Zij ) oil t/ij , i = 1 , . . . , rij . j = 1, . . . , g est la i e observation du groupe 
j portant sur la variable d’interet, et est la i e observation du groupe j portant sur la 
covariable (ou variable explicative, ou variable ind^pendante). Le module sAcrit 

Vij 'To j A Ti z ij A Cij , 

oil nous supposons que le parametre de pente 71 est le meme pour les g groupes. Nous 
obtenons 

Vij = Toy +Ti A , 

et nous construisons la table d’ANOVA comme dans le cas le plus simple (cf. § 15.1) : 


Table 15.5 — Table d’ANCOVA. 


Source 

ddl 

sc 

MC 


F 

Facteur A 

9- 1 

SCA 

MCA = 

SCA / ( ff -l) 

MCA / MCE 

Covariable 

1 

see 

MCC = 

see 

MCC / MCE 

Erreur 

n-g- 1 

SCE 

MCE = 

SCE / (n-g- 1) 


Total 

n — 1 

SCT 





Exemple — Dans l’exemple des spots publicitaires, nous obtenons — en considerant 
maintenant la variable « Taille » comme une variable quantitative : 
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> summary (aov(Conso ~ factor (Pub) + Taille, 
Df Sum of Sq Mean Sq F Value 

factor (Pub) 3 4585.68 1528.56 11.5182 

Taille 1 40926.02 40926.02 308.3913 

Residuals 115 15261.43 132.71 


consomenage2) ) 
Pr (F) 

1 . 169389e-006 
0 . 000000e+000 


15.5 Trois criteres de classification ( Three-way ) 

15.5.1 Trois facteurs (Three-way factorial design ) 


Nous sommes en presence de trois facteurs; chaque cellule ( i,j,k ) est supposee contenir 
c observations. Le module s’ticrit : 

Vijkh — y A a.j -\- (3i -t- ( Otpfj -t- (P'fpk (/loq )ijk A tijkh > 

pour i = 1, . . . , b, j = 1, . g, k = 1, , l et h = 1, . . . , c. 

On suppose que 

g b i 

'y^. a j = 'y^. a = 'y^. 7* = o > 

j — i g — i fe= l 

g b g l b l 

^2(ap)ij = ^2(a/3)ij = = ^(ai)jk = ^(Pl)ik = ^2(Pl)ik = 0 , 

j = 1 i—1 j = 1 k—1 i—1 k— 1 

b g l 

E^hk = ^(ah)ijk = '52(a/3'y)i j k = 0 

i—1 j—1 k—1 

et que 

f-ijkh Af( 0, cr 2 ) . 


Facteur A 

1 2 ... g 


1 

(1) fl + Oq + Pi 

(c) fl + «i + Pi 

(1) fi + ai2 + Pi 

(c) y + a 2 + Pi 


(1) fi + a g + Pi 

(c) fi + a g + Pi 


(1) fi + or + Pi 

(1) /i + a 2 + ^2 


(1) fi + a g + P 2 

Facteur B 2 






(c) fl + Oil + P 2 

(c) fi + ct 2 H - (3 2 


(c) fi + a g + P 2 






b 

(1) fi + ai + Pb 

(1) fl + «2 + Pb 


(1) fi + a g + Pb 


(c) fi + + Pb 

(c) fl + CX 2 + Pb 


(c) fi + a g + Pb 


Figure 15.6 - Plan d’experience a trois criteres de classification. 
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On note : 


SCA = bdJ2(y.j..-y...f . SCB = gd^iVi... -y...) 2 > SCL = bgc^V-.k. !)...) , 

j = 1 2=1 fc = l 

b g b l 

scba = dY^^iVij ..-Vi. ..-y.j .. + y.. ..) > scbl = cg^Y^iVi*. - y,...-y..i,. ■ '/...) , 

2=1 J = 1 2=1 fc = 1 

3 l 

SCAL = cb 

j=l fc=l 

6 5 l 

SCABL = c ]C S “ Vi:i- ~ Vi*. - tfi... + V.J.. + y..k. ~ . 

2=1 Jf = l fc = l 

SCE = E E E - %J 2 . SCT = E E E - y ...) 2 • 

2=1 J = 1 fe=l /l = l 2=1 J = 1 fc=l fo=l 


La table de l’ANOVA est ecrite ci-dessous (cf. tab. 15.6). 


Table 15.6 — Table de l’ANOVA a trois criteres de classification. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

9- 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCE 

Facteur B 

6-1 

SCB 

MCB = SCB / (6 — 1) 

MCB / MCE 

Facteur L 

l-l 

SCL 

MCB = SCL / (l-l) 

MCL / MCE 

Inter. AB 

( 5 - m-i) 

SCAB 

MCAB = SCAB / (g - 1)(6 - 1) 

MCAB / MCE 

Inter. BL 

(6-l)(Z-l) 

SCBL 

MCBL = SCBL / (6 - 1)(Z - 1) 

MCBL / MCE 

Inter. AL 


SCAL 

MCAL = SCAL / (g-l)(l- 1) 

MCAL / MCE 

Inter. ABL 

( 5 -l)(6-l)(Z-l) 

SCABL 

MCABL = SCABL / (g - 1)(6 - 1)(Z - 1) 

MCABL / MCE 

Erreur 

bgl(c— 1) 

SCE 

MCE = SCE / bgl(c - 1) 


Total 

bglc — 1 

SCT 




Les statistiques employees pour tester les differents effets — des trois facteurs comme 
des interactions — sont semblables a celles vues precedemment. 

Exemple — Considerons le jeu de donnees suivant, qui nous renseigne sur un score 
calcule chez des personnes, pour lesquelles on distingue le statut par rapport au tabagisme, 
l’origine ethnique (race en anglais) et le sexe : 
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Blanc 

Non blanc 

Homme 

Non 

fumeur 

54 

54 

58 

52 

52 

48 


44 

18 


Fumeur 

40 

22 



44 

18 


Non 

fumeuse 

44 

40 

40 

6 

2 

o 

Femme 


z 


22 

24 


Fumeuse 

18 

20 



22 

24 


Aprfes r££criture du fichier, nous pouvons r^aliser l’ANOVA : 


> summary (aov(conso ~ factor (smoke) * factor (race) * factor (sexe) , smoke)) 



Df 

Sum of Sq 

Mean Sq F 

Value 

factor (smoke) 

1 

770.667 

770.667 

144.5 

factor (race) 

1 

1536.000 

1536.000 

288.0 

factor (sexe) 

1 

2400.000 

2400.000 

450.0 

factor (smoke) :factor(race) 

1 

170.667 

170.667 

32.0 

factor (smoke) :factor(sexe) 

1 

682.667 

682.667 

128.0 

factor(race) :factor(sexe) 

1 

24.000 

24.000 

4.5 

factor (smoke) :factor(race) :factor(sexe) 

1 

1290.667 

1290.667 

242.0 

Residuals 

16 

85.333 

5.333 



factor (smoke) 
factor (race) 
factor (sexe) 
factor (smoke) :factor(race) 
factor (smoke) :factor(sexe) 
factor(race) :factor(sexe) 
factor (smoke) :factor(race) :factor(sexe) 


Pr (F) 

0.00000000 

0.00000000 

0.00000000 

0.00003571 

0.00000000 

0.04986461 

0.00000000 


Residuals 


qui peut se syntlietiser sous la forme suivante : 


Table 15.7 - Table de l’ANOVA pour l’exemple du score. 


Source 

ddl 

SC 

MC 

F 

P 

Tabagisme 

1 

770,67 

770,67 

114,50 

0,000 

Type 

1 

1536,00 

1536,00 

288,00 

0,000 

Sexe 

1 

2400,00 

2 400,00 

450,00 

0,000 

Tabag.-Type 

1 

170,67 

170,67 

32,00 

0,000 

Tabag.-Sexe 

1 

682,67 

682,67 

128,00 

0,000 

Type-Sexe 

1 

24,00 

24,00 

4,50 

0,050 

Tabag.-Type-Sexe 

1 

1290,67 

1290,67 

242,00 

0,000 

Erreur 

16 

85,33 

5,33 



Total 

23 

6 960,00 
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La non-significativite de l’interaction « Type-Sexe » peut etre visualisee 1 sur la fi- 
gure 15.7, derivee de la commande : 

> attach(smoke) 

> interaction. plot (factor (race) , factor (sexe) , conso, fun=mean) 



Figure 15.7 — Interaction « Type-Sexe ». 


15.5.2 Emboitement a deux niveaux ( Three-way nested design ) 


Considerons un modele a deux niveaux d’emboitement : il s’agit d’etudier deux facteurs 
suivant un plan d’experiences incluant des blocs randomises, blocs destines a controler un 
possible facteur de nuisance. 



A i 


A-a 

B i 


B b 


Bi 


B b 

1 

Ci 


C c 


C ! 




Ci 


C c 


Ci 


C c 

















r 

















Figure 15.8 — Plan d’exptirience it deux niveaux d’emboitement. 


1. Une interaction significative se traduirait par Intersection des deux droites. 
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Le modele s’ecrit : 


Uijk — jt A A atj A 'Yfc T (o-l)jk A £ijk i 

pour i = 1 , . . . , b, j = 1, . . . , g, k = l,...,l. 

On suppose que 

<*j Af(0, al) , (a/% Af(0, a 2 af} ) , {otfii) ijk Af(0, a 2 af)l ) , e ijk Af{0, a 2 ) . 

On note : 

g a b 

SCA = bcrJ2(V .j.. -V...) 2 . SCB(A) = -^J 2 , 

i=i »=i i=i 

g b r 

SCC(BA) = 

J=1 2=1 fc = l 

SCE = E E E E(%« - ^ fc .) 2 > SCT = E E E Efe - y ....) 2 • 

i = 1 J=1 fc=l i=l t=l i=l fc=l 1=1 

La table de l’ANOVA est ecrite ci-dessous (cf. tab. 15.8). 


Table 15.8 — Table de l’ANOVA a deux niveaux d’emboitement. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

g- 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCB(A) 

Facteur B (dans A) 

g(b- 1) 

SCB(A) 

MCB(A) = SCB(A) / 5(6-1) 

MCB(A) / MCC(AB) 

Facteur C (dans B) 

gb(r - 1) 

SCC(BA) 

MCC(AB) = SCC(AB) / gb(c- 1) 

MCC(AB) / MCE 

Erreur 

abr(c — 1) 

SCE 



Total 

abcr — 1 

SCT 




La statistique de Fisher testant l’effet du traitement A vaut 

MCA 


F a = 


MCB(A) 


F {g-1 ,9{b-l)) • 


La statistique de Fisher testant l’effet du traitement B vaut 

MCB(A) 


F b = 


MCC(AB) 


F(g(b-i ) , gK c ~ !)) ■ 


La statistique de Fisher testant l’effet du traitement C vaut 
MCC(AB) 


Fc = 


MCE 


F(gb(c- 1) , gbc(r- 1)) . 
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15.5.3 Carre latin ( Latin Square design ) 

Nous sommes en presence d’un facteur d’interet A (traitement) et cle deux facteurs de 
nuisance (blocs). Le dispositif est constitue d’un nombre de parcelles qui est un carre (9, 
16, 25, . . . ), et il comporte autant de lignes de parcelles que de colonnes de parcelles; au 
sein de ce dispositif, chaque objet est present une et une seule fois dans chaque ligne et 
dans chaque colonne. 

Exemple — Nous considerons un essai de chauffage du sol sur une vari£t6 de plante, 
et nous relevons les accroissements moyens en hauteur. Chaque temperature n’apparait 
qu’une seule fois par ligne et par colonne. 



Serre B 

Figure 15.9 — Carre latin. 


Le modele s’ecrit : 

Uik(j) = A* + Si + 7 fc + a j + e ik(j) » 

pour i = 1, . . . , b, j = 1, . . . , b, k = 1, . . . , b. On suppose que £ik(j) Af( 0, cr 2 ). On suppose 

de plus que : 

b b b 

= = = 0 • 

i = 1 k = 1 j = 1 

Les deux effets « bloc » — c.-a-d. clus aux lignes et aux colonnes — sont representes 
par Si et 7 k, tandis que l’effet du facteur d’interet A (traitement) est represente par aj. 
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15. SANS EFFET ALtATOIRE 


Par la suite, les notations L et C designeront les termes ligne et colonne. On note : 

b b 

SCA = - !J..f , SCL = &$>*.. -y...) 2 . 

3=1 »=1 

b b 

see = , 

k = 1 k = 1 


SCE = ~ y i - ~ y k- +2 y.- ) 2 > SCT = ^Z^iyiku) - y..) 2 


i = 1 /c— 1 


z=l fc=l 


La table cle l’ANOVA est 6crite ci-dessous (cf. tab. 15.9). 


Table 15.9 — Table de l’ANOVA pour le carre latin. 


Source 

ddl 

SC 

MC 


F 

Facteur A 

6-1 

SCA 

MCA 

= SCA / (6-1) 

MCA / MCE 

Facteur lignes 

6-1 

SCL 

MCL 

= SCL / (6 - 1) 

MCL / MCE 

Facteur colonnes 

6-1 

see 

MCC 

= SCC / (6- 1) 

MCC / MCE 

Erreur 

(6 — 1) (6 — 2) 

SCE 

MCE 

= SCE / (6 — 1)(6 — 2) 


Total 

6 2 — 1 

SCT 





Exemple — Dans l’essai sur le chauffage du sol, nous obtenons la table 15.10. 


Table 15.10 - ANOVA sur l’essai de chauffage du sol. 


Source 

ddl 

SC 

MC 

F 

P 

Temperatures 

3 

13,61 

4,54 

43,00 

0,000 

Lignes 

3 

661,00 

220,00 

2,09 

0,203 

Colonnes 

3 

2 832,00 

944,00 

8,95 

0,012 

Erreur 

6 

633,00 

105,50 



Total 

15 

17,74 





15.6 Plus de trois criteres de classification (2 P design ) 

S’il y a p facteurs presentant b±, & 2 , ■ ■ • , b p niveaux, 
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16 


Avec effet(s) aleatoire(s) 


16.1 Un facteur aleatoire ( One-way random effect mo- 
del) 


Ce cas se traite exactement comme si le facteur etait non pas elatoire, mais fixe. Soient 
n observations reparties en g groupes, ou les g groupes sont supposes etre tires au sort 
parmi un grand nombre de groupes. On note ytj l’observation concernant la i e observation 
du groupe j. Chaque groupe j contient n ; - observations. Le module sAcrit 

Vij = /i + Olj + €ij ■ 
aj repr^sente l’effet du groupe j. On suppose que : 

‘if Af( 0, cr 2 ) , aj A/^O, cr 2 ) . 

L’hypothSse nulle dAgalit£ entre tous les groupes se traduit par la nullity de cr 2 . En 
pratique, le tableau de l’ANOVA et la statistique de Fisher sont exactement celles de la 
section 15.1. Dans le cas present, les observations et ykj sont correlees : puisque ces 
deux observations contiennent une variable aleatoire commune aj , nous avons 

Co y(yij,y k j) = cr 2 


et 


V ( Vij ) — cr 2 + o-" . 


A partir de ces constatations, nous pouvons definir le coefficient de correlation 
intraclasse — qui mesure la correlation entre deux observations appartenant a un meme 
groupe — comme etant : 



152 


16. AVEC EFFET(S) ALEATOIRE(S) 


Si l’hypothese nulle est rejetee — c 

.-a-d. que ^ 0 

MCA - MCE 

1 

9 ~ 1 



nous pouvons estimer a a par 


Exemple — Concernant la campagne de spots publicitaires, nous pouvons utiliser 
les donn^es concernant le spot n° 2 : nous considerons que les 5 regions constituent un 
echantillon aleatoire d’une population incluant toutes les regions existantes. L’analyse avec 
un effet aleatoire « Region » s’ecrit : 

> consomenage3_consomenage [consomenage$Pub==2 , ] 

> raov(Conso~f actor (Region) , consomenage3) 

Call: 

raov(formula = Conso ~ factor (Region) , data = consomenage3) 


Terms : 


factor (Region) Residuals 
Sum of Squares 4790.53 11090.12 

Deg. of Freedom 4 25 


Residual standard error: 21.06193 
Estimated effects are balanced 

La statistique de Fisher et la p-value sont calculees ci-dessous : 

> (4790. 53/4)/(11090. 12/25) 

[1] 2.699774 


> 1-pf (2.699774,4,25) 
[1] 0.05363328 


d’oii nous concluons que l’effet « Region » n’est pas significatif au seuil de 5 %. Considerons 
toutefois sa significativite au seuil de 10 % : l’estimation de la variance de cet effet a 2 a - 
variance inter-region — est 

(4790,53)/4 — (11 090,12)/25 = ^ ^ 

1/4(30 - 180/30) 


Une estimation de la variance intra-region est 

(11090, 12)/25 = 

6 

Nous constatons que la variance inter-region est environ dix fois superieure a la variance 
intra-region : ainsi, la variance de l’effet « Region » ne peut etre negligee, ce qu’affirme la 
significativite de la statistique au seuil de 10 %. 


16.2 Deux facteurs aleatoires ( Two-way random effects 
model ) 

En reprenant exactement les memes notations que la section 15.4.2, le modeie s’ecrit : 

Vij — p A OLj -R -\- £ijk ; 
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pour i = 1, . . . , b, j = 1, . . . , g, k = 1, . . . , c, avec les hypotheses suivantes : 

a.j , Pi Af(0,ap) , ( a.p)ij Af( 0,(7^) , A/"(0, cr 2 ) . 

On appelle coefficient de correlation intraclasse concernant les rtiponses au traite- 
ment A la quantite 

crl + aj + a 2 a0 + a 2 ' 

Un coefficient similaire peut etre calculi concernant les responses au traitement B , ainsi 
que concernant les observations d’une meme cellule (meme niveau de traitement pour A et 
meme niveau de traitement pour B). 

La table de l’ANOVA est 6crite ci-dessous (cf. tab. 16.1). 


Table 16.1 — Table de l’ANOVA a deux facteurs aleatoires. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

g- 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCAB 

Facteur B 

6-1 

SCB 

MCB = SCB / (6 — 1) 

MCB / MCAB 

Inter. AB 


SCAB 

MCAB = SCAB / (g - 1)(6 - 1) 

MCAB / MCE 

Erreur 

bg(c - 1) 

SCE 

MCE = SCE / bg(c - 1) 


Total 

bgc- 1 

SCT 




La statistique employee pour tester l’effet du facteur A (effet groupe) est 

MCA 


Fa = 


MCAB 


F(g - 1 » (s- i)(&- 1)) ■ 


La statistique employee pour tester 1’effet du facteur B (effet traitement) est 

MCB 


F b = 


MCAB 


F{b- 1 , (g -!)(&-!)) ■ 


La statistique employee pour tester l’interaction AB est 

MC(AB) 


-Fab = 


MCE 


F({g — 1)(6 — 1) , gb(c — 1)) . 


Exemple — Dans l’etude de l’impact des spots publicitaires, nous obtenons le modele 
voulu et l’analyse par les commandes suivantes : 

> raovfformula = Conso ~ factor(Pub) * factor (Region) , data = consomenage2) 
Terms : 

factor(Pub) factor (Region) factor (Pub) : factor (Region) 

Sum of Squares 4585.68 4867.51 8937.92 

Deg. of Freedom 34 12 
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Residuals 
Sum of Squares 42382 . 02 
Deg. of Freedom 100 

Residual standard error: 20.58689 
Estimated effects are balanced 

Les degres de significativite des tests des effets « Pub », « Regions », « Pub-Regions » 
sont respectivement : 

> 1 - pf ((4585. 68/3)/(8937. 92/12) , 3, 12) 

[1] 0.160266 

> 1 - pf ((4867. 51/4)/(8937. 92/12) , 4, 12) 

[1] 0.2294265 

> 1 - pf( (8937. 92/12)/ (42382. 02/100) , 12, 100) 

[1] 0.06584021 


16.3 Modele mixte ( Two-way mixed effects model ) 


Elle comporte un effet fixe et un effet aRatoire. En reprenant les notations de la section 
pr6c£dente, nous supposons que l’effet de A est fixe, tandis que celui de B est aRatoire 
— celui de l’interaction etant aleatoire. 

La table de l’ANOVA est 6crite ci-dessous (cf. tab. 16.2). 


Table 16.2 — Tableau de l’ANOVA. 


Source 

ddl 

SC 

MC 

F 

Facteur A 

9~ 1 

SCA 

MCA = SCA / (g- 1) 

MCA / MCAB 

Facteur B 

6-1 

SCB 

MCB = SCB / (6—1) 

MCB / MCE 

Inter. AB 

(3 - 1)(&-1) 

SCAB 

MCAB = SCAB / (g - 1)(6 - 1) 

MCAB / MCE 

Erreur 

bg(c - 1) 

SCE 

MCE = SCE / bg(c - 1) 


Total 

bgc- 1 

SCT 




La statistique employee pour tester l’effet du facteur A (effet groupe) est 


Fa 


MCA 

MCAB 


F(g-1 » (ff -!)(&-!)) ■ 
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La statistique employee pour tester l’effet du facteur B (effet traitement) est 
Fb = F (b-l,gb(c-l)) . 


La statistique employee pour tester 1 ’interaction AB est 

MCAB 


-Fab = 


MCE 


F{{9 - !)(F - 1) , gb(c - 1)) . 


16.4 Blocs aleatoires avec subdivisions ( Split Plot ) 


Ce type de plan experimental provient de la recherche agronomique. On desire tester un 
traitement A sur plusieurs bandes de terre ; ces bandes peuvent elles-memes etre divisees 
en sous-unites (ou split plots), afin de tester un second traitement. 

Pour une experience a deux facteurs, de type gb ( g niveaux du premier facteur et b 
niveau du second) et comportant c blocs, la premiere etape consiste en une repartition clas- 
sique cles g variantes du premier facteur au sein cles c blocs, conduisant h la delimitation de 
gc parcelles primaires ( whole plots). La seconde etape consiste ensuite en une repartition 
aieatoire et independante cles b variantes du second facteur a l’interieur cles gc parcelles 
principales, de maniere a constituer gbc parcelles secondaires (subplots). 

Bloc 1 Bloc c 


Facteur B 
(parcelles primaires) 


Facteur A 

(parcelles secondaires) 




Figure 16.1 — Plan d’experience avec parcelles divisees. 


Remarque — La variable d’interet est celle delimitant les parcelles secon- 
daires. 


Le modeie s’ecrit : 


TJijk — P “t - otj Pi (ap)ij -\- pk ( pa) lk €ijk , 

pour i = 1, . . . , g, j = 1, . . . , b, k = 1, . . . , c, et ou p designe la moyenne generale (grand 
mean), cti l’effet du traitement A au niveau i, fij l’effet du traitement B au niveau j et pk 
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l’effet de la duplication. On suppose que les pk sont i.i.d. de loi 7V(0, cr 2 ), que les (pa)ik 
sont i.i.d. de loi 7V(0, a 2 a ), et que 


E( pa)ik = 0 Vi . 

k = l 

On suppose aussi que les sont i.i.d. de loi A/"(0, er 2 ) et que les Pi, ( pa)ij et sont 
independants. Concernant les effets fixes, on suppose que 

aba b 

E a * = E^' = 0 ’ =0 Vj , J2(a(3) i:j =0 Vi . 

2=1 j = 1 i=l j = 1 

On a 

) P T OLi A~ Aj -|- . 

Toutes les observations ont la irieme variance : 


V {y ijk ) = o 2 p + cr 2 a + o - 2 . 

Les observations a l’interieur d’un meme terrain ont une correlation const ante de 


2 

pa 


Dans l’ecriture des carres, les abbreviations sont P pour primaire et S pour secondaire. 
On note : 


SCA = J2( Vj - v y , scb = , SCR = -y-f - 

j= 1 i—1 k—1 

b c 

SCEP = ^ L](Vi.fc — y...) 2 — SCR — SCB = erreur liee aux parcelles primaires , 

2=1 k—1 

SCES = SCT — SCA — SCB — SCR — SCAB — SCEP = erreur li£e aux parcelles secondaires , 

b g b g c 

SCAB = EE (vij. - Vi.. - y.j. + y..f » SCT = E E E (// 'A _ • 

2=1 j — 1 2 = 1 j = 1 k — 1 


La table de l’ANOVA est ecrite ci-dessous (cf. tab. 16.3). 


Table 16.3 — Table de PANOVA pour le modele avec blocs aRatoires contenant des sub- 
divisions. 
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Source 

ddl 

SC 

MC 

F 

Entre les parcelles primaires ( whole plots ) 



Blocs 

c — 1 

SCR 



Facteur B 

b- 1 

SCB 

MCB = SCB / (b - 1) 

MCB / MCEP 

Erreur I 

(6-l)(c-l) 

SCEP 

MCEP = SCEP / (6— l)(c— 1) 


(inter, bloc - A) 





Entre les parcelles secondaires ( subplots ) 




Facteur A 

g- 1 

SCA 

MCA = SCA / {g- 1) 

MCA / MCES 

Inter. AB 

(9 -!)(&-!) 

SCAB 

MCAB = SCAB / (g - 1)(6 - 1) 

MCAB / MCES 

Erreur II 

g(b-l)(c-l) 

SCES 

MCES = SCES / g\b - l)(c - 1) 


(inter, bloc - B) 

(( 5 -l)(c-l)) 




(inter, bloc - A - B) 

(( 5 -l)(6-l)(c-l)) 




Total 

gbc- 1 

SCT 




La statistique de Fisher testant l’effet du traitement A vaut 

MCA 


F a = 


MCES 


F(g - 1 , b(g- l)(c- 1)) . 


La statistique de Fisher testant l’effet du traitement B vaut 

MCB 


F b = 


MCEP 


F(b — 1 , (b — l)(c — 1)) . 


La statistique de Fisher testant l’interaction vaut 
SCAB 


-Fab = 


SCES 


- F((g — 1)(F — 1) , b(g — l)(c — 1)) 


Exemple — Nous supposons que, dans l’exemple du spot publicitaire, chaque region 
represente un bloc. Dans chaque region, il y a 4 parcelles primaires, correspondant aux 4 
spots. Pour chaque spot, nous avons 6 families differentes, suivant le critere de leur taille 
— ainsi le critere « Taille » constitue-t-il les parcelles secondaires. Le but est de determiner 
s’il y a une difference significative de consommation entre des manages de tailles differentes. 

La procedure S-Plus est la suivante 1 


> summary (aov(Conso ~ factor (Taille) * factor(Pub) 

+ Error (factor (Region) * factor (Pub) ) , consomenage) ) 


Error: factor (Pub) 

Df Sum of Sq Mean Sq 
factor (Pub) 3 4585.68 1528.56 

Error: factor (Region) : factor (Pub) 

Df Sum of Sq Mean Sq F Value Pr(F) 

Residuals 12 8937.917 744.8265 

Error: Within 

1. Elle n’est pas explicitement donnee dans le chapitre « Split Plot » du Guide de l’Utilisateur, Tome 1. 
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Df Sum of Sq Mean Sq F Value Pr(F) 

factor (Taille) 5 40967.65 8193.529 654.4706 0.00000000 

factor (Taille) :factor(Pub) 15 412.82 27.522 2.19830.01284298 

Residuals 80 1001.55 12.519 


Nous en concluons que l’effet « Taille » est grandement significatif. 


Quelques verifications, concernant les calculs des statistiques : 

> (4585. 68/3)/(8937. 92/12) 

[1] 2.052236 

> (40967. 65/5)/(1001. 55/80) 

[1] 654.468 

> (4585. 68/3)/(8937. 91/12) 

[1] 2.052238 


Pour tester la significativitd de l’effet attribute au type de spot publicitaire, nous calcu- 
lons : 


> 1-pf ((4585. 68/3)/(8937. 91/12) ,3,12) 
[1] 0.1602657 


Nous en concluons que cet effet n’est pas significatif (p > 16 %). 
Nous pouvons r£capituler l’ANOVA au travers du tableau 16.4. 


Table 16.4 — Resume de l’ANOVA. 


Source 

ddl 

SC 

F 

P 

Entre les spots publicitaires (parcelles primaires) 


Region (bloc) 

4 

4867,51 



Spot (primaire) 

3 

4585,68 

2,05 

0,16 

Erreur I 

12 

8 937,92 



(inter, region - spot) 





Entre les types de families (parcelles secondaires) 


Taille 

5 

40 967,65 

654,47 

0,00 

Inter. Taille - Spot 

15 

412,82 

2,20 

0,01 

Erreur II 

80 

1001,55 



(inter. Region - Taille) 

(20) 




(inter. Region - Taille - Spot) 

(60) 




Total 

119 

60 773,13 




16.5 Blocs aleatoires avec subdivisions sur des mesures 
repetees ( Repeated measures Split Plot design ) 

Les sujets sont echantillonnes aleatoirement par groupes de sujets (parcelles primaires). 
IL y a b groupes contenant chacun c sujets. Chaque groupe de sujets regoit une certaine 
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dose d’un traitement (parcelle secondaire), parmi g doses. Ensuite, chaque sujet est re- 
echantillonne, de maniere a ce qu’il regoive chaque dose du traitement. La repetition porte 
done sur les sujets : il est imptiratif d’introduire un effet altiatoire « Sujet » dans le mo- 
dule pour prnedre en compte la correlation des donnees issues d’un meme sujet. Le module 
s’ecrit : 


Uijk ^ T A A (otfl'jij T A Oijk ; (16.1) 

pour i — 1, . . . , b, j = 1, . . . , g, k = 1, . . . , c, oil ji est la moyenne generale ( grand mean), 
cij represente l’effet du traitement a la dose j, /?* represente l’effet des groupes de sujets, et 
7 ^ est l’effet ateatoire « Sujet ». Concernant les effets fixes, on suppose que 

g b g b 

'y ' bXg y ' /3i ^^(a(3)ij y ^ (u/d) 0 . 

j — 1 i— 1 j—1 i= 1 

On suppose par ailleurs que les jk sont i.i.d. de loi A/”(0, a 2 ), et que les e,yfc sont i.i.d. 
de loi A/”(0, a 2 ). 

On note : 


b be g 

SCB = gc £&. -t-P ’ scs = sEE(»**-M’- SCA = a'EiU-v A. 

i—l j—1 k—1 j—1 

b g 

SCAB = - Vi -Vj + y j 2 , 

*= i i=i 

b g c b g c 

SCE = E E E(»«k - Vi.k - Vi,. + Vi.f . sct = ^ £ 5> yfc - y..f ■ 

i—l j—1 k—1 i—l j= 1 k—1 


La table de l’ANOVA est donnee ci-dessous. 


Table 16.5 — Table de l’ANOVA pour le modeles avec blocs aleatoires contenant des 
subdividions sur des mesures repetees. 


Source 

ddl 

SC 

MC 

F 

Facteur B (groupes) 

( parodies primaires) 

b- 1 

SCB 

MCB = SCB / (6 - 1) 

MCB / MCS 

Facteur S (sujets) 

b{c-l) 

SCS 

MCS = SCS / b(c - 1) 

MCS/MCE 

Facteur A (traitement) 

( parcelles secondaires) 

9- 1 

SCA 

MCA = SCA / (g - 1) 

MCA / MCE 

Inter. AB 


SCAB 

MCAB = SCAB / (g - l)(b - 1) 

MCAB / MSE 

Erreur 

Total 

Kg — i)( c — i) 

gbc - 1 

SCE 

SCT 

MCE = SCE / b(g — l)(c — 1) 



La statistique de Fisher testant l’effet de la constitution des groupes (facteur B ) vaut 


MCB 

MCS 


F(b — 1 , b(c — 1)) . 
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La statistique de Fisher testant l’effet du traitement (facteur A) vaut 

^ F(g-l,b(g-l)(c~l)) . 


La statistique de Fisher testant l’interaction vaut 
MCAB 


Fab = 


MCE 


F ((g - 1 )(b - 1) , b(g - l)(c - 1)) 


La statistique de Fisher testant l’effet « Sujet » vaut 

MCS 


Fs = 


MCE 


F (b{c - 1) , b(g - 1 )(c - 1)) . 
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17 


Jackknife 


17.1 Definitions 


17.1.1 Cas unidimensionnel 

L’objectif initial du jackknife est de reduire le biais d’un estimateur. Soient n realisations 
independantes (Xi, . . . , X n ) d’une variable X de loi Pg dependant d’un parametre reel 6 ; 
on possede un estimateur T n biaise de 6 : 

E (T n ) = 9 + B{n,0) 

On note £-, le sous-ecliantillon (Xi, . . . , X*_i, X, + i, . . . , X n ) obtenu h partir de l’eclian- 
tillon initial en supprimant la i e observation ; cela revient a dire que l’on fait un sondage 
dans l’echantillon de base en tirant n — 1 observations sans remise. X!*_-| designe la statis- 
tique fondee sur £ t selon la meme regie de decision que celle de T n . 

Definition 17.1 — On appelle pseudo- valeur d’ordre i de T n la statistique 

J i (T)=nT n -(n-l)T^_ 1 . 


Definition 17.2 — On appelle jackknife de T n la statistique J(T n ) moyenne des 
pseudo-valeurs : 

1 


J (Tn) = -VJi(T n ) 

n 


i = 1 

= nT„-"—t± r„_, 

i= 1 

— 1 _ n 

= T n ~- Y,( T n-l~ T n)- 

n ^ ' 

2—1 

J(T n ) est appele estimateur du jackknife de T n , ou « jackknife » de T n 
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Nota — Si T n est sans biais, alors J(T n ) Test aussi. 

Calculons la variance empirique Spj(T) des n pseudo- valeurs J,;(T) : 
1 


Sh(T) = — J2[ J i( T n)- J (T n )Y 


1 

n — 1 


n — 1 


i = 1 


n i n 

J2(nT n -(n- 1) Ti_ x - - E [nT n - (n - 1) T^,]) 


i=l 


i=l 




i=l 


i=l 


D’ou 


avec 






D’ autre part, 




^V(Ji(T„)) + E Cov (J<(T n ), Jj(T n )) 
*=i *?y 


Les Ji(T n ) peuvent etre consideres comme i.i.d. ; sous cette conjecture, 

V(J(T„)) = -V(Ji(T n )) . 


On peut estimer V (j(T n )) par — 5|> j(T), c.-a-d. 


' ' i=i 


n — 1 


E ( T «-i - T l- 


\ 2 
lj 


i=l 


Par la suite, on notera 


JV(T n ) = - Spj(T) . 


17.1.1.1 Cas multidimensionnel 

Soient 9 = (9j)j — et T n = (T£)j = une statistique a valeurs dans On 
definit le vecteur T^_ x cle coorclonnees (T^’£. 1 )j= i,... )P , ou est construit a partir cle 
comme T r j_j a partir de T n dans le cas unidimensionnel. 

La pseudo-valeur d’ordre i est un vecteur de K p : 

Ji(T) = nT n -(n- l)T' n _ x 

= T n — (n — 1) (T^_! — T„) . 
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Posons, pour i = 1, . . . , n, 


et 


e i — ^n— 1 


e = -J2 e i ■ 
1 


Le jackknife de T n est 


J (T n ) = - V Ji(T n ) 

n z ' 




n — 1 \ ' 

— J-n / 

i=l 

= T n — (n— l)e . 

L’estimateur de Y (T n ) est, par analogie avec le cas unidimensionnel, la matrice carree 
d’ordre p 


JV(T n ) 


_ i n 

^ ^ (!£_! - r^) (rf _ 1 - rl-if 

Z =1 

— 1 n 

- — _ g ) ( e * - g )* • 

T). L ' 


Remarque — Pour un parametre multidimensionnel, on preferera utiliser dans la 
pratique — la methode du jackknife unidimensionnel coordonnee par coordonnee. 


17.1.2 Proprietes 

Theoreme 17.1 — Si le biais de T n est de la forme 

OO 

B (n, 0) = J2 % > 

fc = i 

alors J(T n ) est un estimateur biaise en 6 d’ordre superieur ou egal a 2 en 

En effet, si B(J) est le biais de J(T n ), on a 

B{J) = n B(n, 9) — (n — 1) B{n — 1, 9) 

OO OO 

E Ofc , . , V'' a k 

fe=l fe=l V ’ 

a 2 \ ' / 1 _ 
n (n — 1) \n fc_1 (n 
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Done, si E (T n — 8) = O(^), alors E (j(T n )) = 0(^ )■ On constate que si cifc = 0 pour 
tout k ^ 2, J(T n ) est un estimateur sans biais de 9. La methode du jackknife est done 
un moyen robuste 1 pour diminuer le biais d’un estimateur. 

Ce th^orfeme peut etre etendu : si l’ordre du premier terme en — de B(n, 9) est a (a ^ 

n 

2), i.e. 

OO 

E(r„-0) = ?± + Y-^, 

v ' n a ^ n a+k 
k = 1 

le terme en ^ sera elimine en considerant la statistique 


J(T n ) 


n a T n — (n — l) a rl_! 
n a — (n — l) a 


Theoreme 17.2 — Soit T n un estimateur tel que 


T 

J n. 


alors 


J(T n ) 


9 . 


17.1.3 Generalisation du jackknife 


Soient deux estimateurs biaises 9\ et 9o du parametre 9 tels que 

E (0i -9) = Bi(n, 9) , 

E (0 2 -9) = B 2 (n, 9) , 


avec 

B x {n, 9) ± B 2 (n, 9) . 


On pose 

r _ Bi (n, 0) 
B 2 (n, 0) ' 

L’estimateur 0 = G(0 i, 02) defini par 


9 = 


0i - R ■ 0 2 
1 - R 


est sans biais pour 0. 


Remarques — Notons : 

1° qu’une situation frequente est celle ou Bi(n,9 ) 
f 2 (n ) ; dans ce cas-la, 


R = 


AO) . 
AO) ’ 


6(0) • /i(n) et B 2 (n, 9) 


6 ( 0 ) • 


1. « Robuste » au sens ou la loi de T n n’intervient pas explicitement. 
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2° le jackknife J(T n ) d’une statistique T n en est un cas particulier, avec 6\ = T n , 
02 = T l n _ i et R= (n — l)/n. 

Dans le cas particulier de la premiere remarque, l’estimateur G{9 1 , 9 2 ) peut etre exprime 
de la fagon suivante : 


0i 

02 

AW 

f2(n) 

1 

1 

AW 

Mn) 


Cette expression permet une generalisation plus large de la procedure du jackknife. 


Definition 17.3 — Soient k + 1 estimateurs 9 1 , . . . , 9k+i du parametre 9 tels que 

OO 

E (9j - 9) = bj (9) ■ fij(n) i = l,...,k + l 

3=1 

On appelle jackknife generalise d’ordre k la statistique 9 ^ deftnie par 1 


0i 

9k+ i 

fn(n) 

/fc+i,fc(n) 

hk{n) 

fk+l,k ( n ) 

1 

1 

fu{n) 

fk+l,k ( n ) 

fik(n) 

f k+1, kin ) 


D(9, k + 1) 
£>(1, k + 1) ' 


Theoreme 17.3 — Si 9 ^ existe, et si 

k 

E(9 i -9) = Y / b j (6)-f ij (n) 

3 = 1 


pour i = 1, . . . , k + 1, alors 

E(0 (fe) )=0. 


Corollaire 17.1 — Dans le cas oil 


/i+ijW 


1 

(n - iy 


alors 

E (0^-0) = 0(n-( fc+1 )) . 


1. A condition que le denominateur ne soit pas nul. . . 
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18 


Bootstrap 


La methode du bootstrap est consideree comme la forme la plus evoluee de jackknife. 
C’est une procedure de reecliant i 1 1 onn age dont l’objectif est d’ytudier les propri^t^s d’une 
statistique T(X i,.., X n ,P) fondle sur un ecliantillon (Xi,.., X n ) d’une v.a. X de loi P. 


18.1 Principe du bootstrap 


Soit une v.a.r. X de loi P, de fonction de repartition F dependant d’un parametre 9 , dont 
on possede un ecliantillon independant £ = (Xi,.., X n ). L’idee est de reechantillonner de 
fagon ind^pendante dans £ et d’etudier le comportement de la statistique T(Xi,.., X n ,F). 
L’algorithme du bootstrap peut etre resume comme suit : 

Phase 1 £ serf de population de base et est munie de la loi de probability empirique 


1 

n 


i=l 


de fonction de repartition F n ; 

Phase 2 conditionnellement a P n , on precede dans £ a N tirages equiprobables avec 
remise; £* = (X*,.., Xjy) est l’echantilon ainsi obtenu et tel que 

Vi € {1, , N}, 3 j, l^j^n t.q. X* = Xj ; 

Phase 3 on approche le comportement de T(£, F) par celui de T(£*, F n ) = T* ; T* 
est la statistique bootstrappee. 

Cette derniere phase sera souvent iteree pour donner lieu a approximation par la me- 
thode de Monte-Carlo. Dans ce cas, la phase 2 est repetee B fois ( B relativement grand), 
engendrant B echantillons ££ k = 1, . . . , B, avec ££ = (Xu,, . . . , Xjvfc)- On observe done 
B valeurs X£ = T(££, F n ) de T. 
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18. BOOTSTRAP 


18.2 Exemples d’application 


La partie la plus importante cle la metliode clu bootstrap concerne la determination 
de la loi de T*, ou tout au moins de son espdance et de sa variance. Trois cas sont h 
envisager : 

1° un calcul direct permet d’etablir les elements de la loi de T* ; 

2° on itere un tres grand nombre de fois les phases 2 et 3 de l’algorithme bootstrap ; 
3° on « linearise » en recourant h un developpement en serie de Taylor. 


18.2.1 Loi de Bernouilli 


Soit X une v.a. de loi de Bernouilli B(p) avec p = P(X = 1). Soit f„ la frequence 
empirique de 1 dans l’echantillon initial £ = (Xi,..., X n ), c.-h-d. l’estimateur optimal 
usuel de p. On considere la statistique 


T(£, F n ) = f n — p . 

Un echantillon bootstrap de taille N, £* = (X*,..., X*) est une suite de N tirages 
equiprobables avec remise dans £ ; la loi « bootstrap » de X* est clone, conditionnellement 
h £, une loi de Bernouilli B(f n ). La statistique bootstrappee sera 




T(£\ F n ) 


N 

\ ' 


i = 1 


fn ■ 


En notant E+ (respectivement U.) l’esperance (resp. la variance) prise par rapport h la 
loi bootstrap B(f n ), on a par un calcul direct eiementaire 


E*(T*) 

U*(T*) 


0 , 


fn( 1 - fn) 

N 


18.2.2 Loi binomiale 

Soit X une v.a. de loi de binomiale B(k , p) avec p = P(X = 1). On considfere un 
echantillon £ = (A'i, . . . , X n ). L’estimateur p de p fonde sur £ est 


P = 


1 

nk 




1 

n 




avec 

~ Xi . 

Pi = — I = 1, • • • , n . 
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La loi « bootstrap » est une loi binomiale B{k, p). Si la statistique T(£, F n ) est p — p, 
alors la statistique bootstrappee est 


rjn-k 


1 

nk 


N 




et 


E*(T*) 

V*(T*) 


0 , 

pQ--p) 

Nk 


18.2.3 Variance 

Soit X une var de loi P, de variance finie Vp(X) = a 2 . Un echantillon £ etant donne, on 
s’interesse a la statistique 

T(£,F n ) = S 2 — a 2 


avec 


X = irrrB*.-*) 2 ' 


n — 1 


La valeur bootstrappee de T sera la difference entre l’estimateur de la variance calculee 
sur £* et la vraie variance dans £, soit 

i N i n 

T * = vbi E w - x *) 2 - n - *) 2 

i— 1 i = 1 


avec 


N 


rEyi*. 

N ^ 1 


On a alors 


rji* 2 " i q2 

1 — D n . 


18.2.4 Dispersion d’une moyenne empirique 

Prenons pour paramfetre cr(X), ^cart-type sous la loi P de la moyenne empirique de 
l’echantillon £ extrait de cette meme loi. Puisque 

*(X) = 4- , 

yn 

a 2 titant la variance de la v.a. X sous la loi P, la statistique d’int^ret est 

T{£, F n )= S E. 

yn 

£* de taille n etant tire, le bootstrap de T est 

S' 

rj-v* 
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ou S' n 2 est la vraie variance sur £, population finie : 

1 n 

^ =-Y,( X *- X ) 2 - 


Si on prend pour T la variance cle X , on obtient 


rjn-k 


s'- 


La variance bootstrappee est alors un estimateur (negativement) biaise de Vp(X ) sous 
la loi P : 

„ 1 71 — 1 r, 

E (T ) = CT 2 

n n 

= — V P (X) 

n 

Vp(X) . 


Remarque — Dans cet exemple, on peut ittirer la phase 2 de l’algorithme du boots- 
trap. Puisque B ecliantillons bootstrap ont 6t6 engendr^s, et puisque l’on veut connaitre 
l’ecart-type de X , on va calculer la suite des b, X k etant la moyenne empirique 

des observations de l’echantillon bootstrap numero k, puis utiliser l’ecart-type de cette suite 
pour approcher a/y/n, soit 


1 

B — 1 


£« - **) 2 


1 

2 


k = 1 


avec 




1 




k=l 


18.2.5 Coefficient de correlation 

On s’interesse a la correlation lineaire p existant entre deux variables X et Y sur la base 
d’un echantillon de taille n. 

La valeur nuinerique trouvtie sur £ est p 0 - O n desire connaitre une caracteristique de 
precision de cet estimateur, par exemple son ^cart-type u(po), sans faire reference h une loi 
quelconque pour le couple (X,Y). On engendre B echantillons de taille n, independamment 
et avec remise, a partir de £, et on calcule p* k . pour k = 1, . . . , B. L’estimateur bootstrap 
de tr(po) est 

1 B .4 

— x £«-?) 2 ■ 
k = 1 

On peut en outre tracer l’histogramme de F echantillon ( p \ , . . . , p* B ), considerer celui-ci 
comme une approximation de la loi de po et comparer au graphe obtenu sous l’hypothese 
de normalite. II est egalement possible de determiner un intervalle de confiance approche 
pour p. 

Notons F* la fonction de repartition de la loi bootstrap de p * ; par exemple, si la loi 
bootstrap est evaluee par iteration d’echantillons, on peut approcher F*(x) par 

1 B 

g 5Z p* k [( x ) ■ 

fc= 1 
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Pour 0 ^ a ^ 1, on definit 


et 

« = (r*r'( 1 -f) 

L’intervalle [p m , pM ) est un intervalle de confiance approche de niveau 1 — a. Cette 
procedure porte le nom de methode des fractiles. 

II existe une procedure derivee. dite methode des fractiles corrigee du biais. <1> 
etant la fonction de repartition de la loi normale centr£e rtiduite, soit 


Po = $~ 1 (F*(p 0 )) 


et u le fractile d’ordre 1 — a/2 de la loi normale centree reduite. On prend alors comme 
intervalle de confiance approche 

[ (F*)- 1 [d>(2p 0 -«)] , (F*)- 1 [d>(2p 0 + w)] 1 . 


18.3 Proprieties asymptotiques du bootstrap 

Soit un reechantillonnage de taille N = n. Soit T* = T{£* , F n ) ou T vaut successive- 
ment 


T\ = X n — Ep(X) 

j, _ X n — Ep(X) 

2 “ MX) 


et 


T 3 = F-\x)~F- 1 (x) . 


Theoreme 18.1 — Nous avons : 
(i) Si E ( X 2 ) < oo, alors 


A n = sup 
teR 


P(v / n Ti < t) — P(v / n T* ^ t) 


ps 


0 (n — * oo) 


n = x n ~x n . 

La vitesse de convergence est donnee par 

yjn 

limsup — , A n , 

Y log (log(n)) 

qui est constante — et que nous notons c\ . 
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(ii) £iE(|X| 3 ) <oo, alors 


B n = sup 
iSR 


P(i Jn T 2 ^ t) — P (y/n T 2 ^ t) — » 0 (n —> 00 ) 


^_X n - X n 

^2 Of 

La vitesse de convergence de B n est superieure a 1/y/n, au sens oil 

lim sup \fn B n ^ C 2 , 


avec C 2 constante. 

(Hi) Si F" existe au voisinage de F _1 (i) et si F'(F _1 (<)) > 0, alors 


C n = sup 
te® 


P(v / u T 3 ^t) — P(v / n Tg ^ t) 


0 (r 


3 ) , 


avec 


lim sup 


C„ 


log ( log(ra)) 


Theoreme 18.2 — Soit £ = n une suite de var i.i.d. de loi P, d’espe- 

rance m et de variance a 2 . Soit £* — (Xf)j=i j ... > n v,n echantillon bootstrap extrait de £. 
Conditionnellement a £, pour N 00 et n — > 00 : 


et 


avec 


VN{X* n ~X n ) Af(0,a) 


p(l S* N - 

cr\ >6 | £) 0 

&N = ^ 

^ - E) 2 

i= 1 


Theoreme 18.3 — On suppose que la fonction de repartition F d'une v.a. X possede 
une unique mediane Md et une derivee f positive et continue sur un voisinage de Md. Alors 


VTl ( Md* n - Md n ) 


Am 0 


1 

2 f(Md) 
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19 


Lien 


19.1 Le jackknife infinitesimal 

Nous reprenons les notations du chapitre sur le jackknife. Le parametre 9 est estime par 
une statistique T n mise sous la forme 

T(X u ...,X n ; 

n n 

ou l’on fait apparaitre les « poids » affect ant les observations de l’echantillon 
£(X ly ...,X n ). 

Plus g^n^ralement, on peut cltifinir la valeur de la statistique T pour des poids quel- 
conques 

n 

uj = [ui , i = 1, . . . , n ; tOi ^ 0 ; y = l} 

2=1 

et on la notera T(£,u>). 


Hypotheses — Nous supposons que : 

1° T{£, oj) est au moins deux fois derivable par rapport aux poids w,; ; u cltisignant les 
poids uniformes, u = (1/n , . . . , 1/n), on note 

„ _ dT(£,w) I 


et 


_ d 2 T(£,u) 
du? 


2° T(£, to) est homogfene, i.e. VA > 0, 


T{£, Aw) = T{£, w) . 
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L’homogeneite de T (£ , to) permet de ne plus imposer la contrainte X]”=i = puisque 

dans ce cas T (£ , u \, . . . , oj n ) est identique a 


T[£, 


u 1 


E “i ’ ’ ’ ' ’ E ) ' 


Ces deux hypotheses impliquent 


E G ‘=o- 


i— 1 


Soit itj(e) le vecteur de poids d^fini par u>j = 1/n, j = 1, . . . , n et j ^ i, et u>i = 1/n — e 
avec 0 ^ e ^ 1/n : 

T(£, Ui (e)) = Ti(e) . 

Le vecteur normalise correspondant serait 


n( 1— e 
1— ne 


Er, pourj = l,...,n, j^i 


sinon. 


n(l-e) 

Sous cette forme, il est evident que Wj(0) = u et que 


i\ f 1 

U r | - = 

n 1 


1 0 1 


Partant, 


7/(0) 

= T(f,u) 


= T n , 

/1\ 


u 

rpi 

~ 1 n—1 • 


On sait que l’estimateur du jackknife de T n = T(£, u ) est 

n — 1 


J(T n )=nT„-- X! 

n ^ ' 


OU 


Tn - J(T„) = (n - 1) ( \ 53 Tn_ 1 - T r 

1=1 


par 


Par analogie, considerons la quantite B(e) definie comme le biais precedent T n — J(T n ) 

B ^) = ^f-E r <( c )- r " 

ne z \ n 

Par un d^veloppement de Taylor & l’orclre 2 de Tj(e) autour de e = 0, on obtient 


Ti(e) = Ti(0) + , 


aT,(e) 

<9e 


e=0 


^ Ti(e) 
<9e 2 


+ o(e 2 ). 


e=0 
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En remarquant que 


f dTjje) 
V de 
f d 2 Tj(e) 
\ de' 2 


e—O 


e—0 


on a une approximation du biais B{e) : 


-Gi 


G, 


B(e) 


1 - e 
ne 2 




+ o(e 2 ) , 


soit, puisque ]Tb Gi = 0, 


B ( £ ) - ~rie 2 ~ E Gii ^ 1 + °*' 1 ^ 

i 


et 


lim5(e) 

e — ^0 


iyc, 

2 n 2 -— ' 

i 

m . 


Definition 19.1 — 

definie par 


On appelle jackknife infinitesimal de T n la statistique JI(T n ) 
JI(T n ) =T n - B( 0) . 


De fagon analogue, on peut definir une variance infinitesimale. En effet, 

S 2 (e) l-£ 


x ' i—1 


ou 


ne) = -Y, T ^)- 

i - 1 

Cette expression coincide avec celle donnee pour JV(T n ) lorsque e = 1/n (jackknife 
classique). Un calcul simple permet d’etablir que 

e — *0 n n 2 


Definition 19.2 — On appelle estimateur du jackknife infinitesimal de la va- 
riance de T n la statistique 

n 

JIV(T n ) = -Y^G 2 . 
n z ' 

t—i 
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19.2 Linearisation 


Comme precedemment, soit £ = (X \, . . . , X n ) l’echantillon initial et £* = ( X *, . . . , X*) 
l’echantillon bootstrappe. On a vu que la valeur de la statistique T(£*, F n ) peut etre ecrite 
sous la forme 

T* = <£(P*) , 

ou P* est issu d’une observation de la loi multinomiale 


M 



1 

1 

n 



** suit symboliquement une loi 


1 


— M ( n; — 
n 


1 


n 


et P* definit un vecteur de poids (P*, . . . , P*), ou P, est la frequence d’apparition de X, 
dans l’echantillon £* . 

Les proprietes de le loi multinomiale donnent 

E*(P*) = -e 
n 

= u , 


oil e = (1, . . . , 1) est le vecteur ligne lxn unitaire, et 

V*(P*) = ^ ^ e‘e 

n z n 6 

ou I n est ma matrice identite cl’orclre n. 

Effectuons un cleveloppement de Taylor de T * = 0(P* j au voisinage de u : 

0(P*) = </>(u) + (P* -«)£)* + * (P* - u) H (P* - uf , 

ou D est le vecteur-ligne gradient d’element courant 



et H est la matrice cles derivees secondes d’element Hjj egal a 

13 \dV*dV*) p ^ u ' 

En imposant l’homogeneite de ^(P*), on a 

e H e* = 0 . 


On obtient, puisque E*(P* — u) = 0, 

E*[<KP*)-0(«)] = 


^E [(P* -u)H (P* - uf] 


Soit 


e*[^(p*)-^(«); 


i 

2rf 


y ■ 

i — 1 
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Remarque — 0(P*) — <j>(u) est egal a T* — T n , difference entre la statistique boots- 
trappee et la statistique d’origine. 


De meme, le calcul de V*((/>(P*)) fournit 


n(<xp*)) « 

D ¥*(P*) D* 

= 

i n 

n z ' 

i—l 

Les deux relations precedentes ecrites en 
fagon suivante : 

faisant intervenir T* et T n s’ exprime nt de la 

E *(T*-T„) f 

1 n 

~ 2r^E^’ 

i—l 


n 

a _ Yd 2 
n 2 ’ 


expressions similaires a celles qui ont ete etablies precedemment pour le jackknife infinite- 
simal. 

En outre, la logique du bootstrap conduit h approximer le biais Ep(T„ — 6) par 


2 n 2 ^ H “ 


i — 1 


et la variance V p(T n — 9) par 


— Yd 2 
«2 
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Annexe A 


Jeux de donnees 


A.l Spots publicitaires 


Table A.l — Consommation des manages soumis h une campagne publicitaire. 
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ANNEXE A. JEUX DE DONNfiES 


Region 

Publ 

Pub2 

Pub3 

Pub4 

Taille 

1 

12.35 

21.86 

14.43 

21.44 

1 

1 

20.52 

42.17 

22.26 

31.21 

2 

1 

30.85 

49.61 

23.99 

40.09 

3 

1 

39.35 

63.65 

36.98 

55.68 

4 

1 

48.87 

73.75 

42.13 

65.81 

5 

1 

58.01 

85.95 

54.19 

76.61 

6 

2 

28.26 

13.76 

14.44 

30.78 

1 

2 

37.67 

24.59 

29.63 

45.75 

2 

2 

44.70 

37.30 

38.27 

56.37 

3 

2 

57.54 

49.53 

51.59 

70.19 

4 

2 

67.57 

59.25 

59.09 

79.81 

5 

2 

77.70 

67.68 

71.69 

94.23 

6 

3 

10.97 

0.00 

2.90 

6.46 

1 

3 

26.70 

2.41 

17.28 

18.61 

2 

3 

36.81 

16.10 

19.62 

30.14 

3 

3 

51.34 

22.71 

29.53 

39.12 

4 

3 

62.69 

30.19 

38.57 

51.15 

5 

3 

72.68 

41.64 

48.20 

59.11 

6 

4 

0.00 

11.90 

4.48 

27.62 

1 

4 

4.52 

27.75 

18.01 

42.63 

2 

4 

13.71 

42.22 

21.96 

59.20 

3 

4 

27.91 

56.06 

34.42 

74.92 

4 

4 

38.57 

66.16 

40.14 

92.37 

5 

4 

42.71 

78.71 

57.06 

98.02 

6 

5 

13.11 

8.00 

10.90 

14.36 

1 

5 

16.89 

18.27 

28.22 

26.37 

2 

5 

27.99 

27.72 

38.62 

34.15 

3 

5 

36.35 

42.04 

48.31 

54.02 

4 

5 

48.85 

48.50 

60.23 

59.90 

5 

5 

61.97 

59.92 

71.39 

74.79 

6 


Pour le traitement par S-Plus, le tableau doit etre reecrit sous la forme A. 2, ce qui peut 
se faire grace au code suivant : 

> temp <- consomenage [rep(l : 30 , rep (4, 30)), c(l,6)] 

> ymat <- data.matrixCconsomenage [, pasteC'pub" , 1 :4, sep="")]) 

> consomenage2 <- cbind(temp, Pub = ordered(rep(paste("pub" , 1:4, sep = ""), 30)), 

Conso = as. vector (t (ymat))) 


Table A. 2 — Donnees pour S-Plus. 
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ANNEXE A. JEUX DE DONNfiES 


Obs. 

Region 

Taille 

Pub 

Conso 

1 

1 

1 

publ 

12.35 

2 

1 

2 

publ 

20.52 

3 

1 

3 

publ 

30.85 

4 

1 

4 

publ 

39.35 

5 

1 

5 

publ 

48.87 

6 

1 

6 

publ 

58.01 

115 

5 

1 

pub4 

14.36 

116 

5 

2 

pub4 

26.37 

117 

5 

3 

pub4 

34.15 

118 

5 

4 

pub4 

54.02 

119 

5 

5 

pub4 

59.90 

120 

5 

6 

pub4 

74.79 


A. 2 Moustiques 


Table A. 3 — Donnees concernant cles moustiques places dans des cages. 


Obs. 

Cage 

Moust 

Valeur 

Mesure 

1 

1 

1 

58.5 

1 

2 

1 

1 

59.5 

1 

3 

1 

2 

77.8 

2 

4 

1 

2 

80.9 

2 

5 

1 

3 

84.0 

3 

6 

1 

3 

83.6 

3 

7 

1 

4 

70.1 

4 

8 

1 

4 

68.3 

4 

9 

2 

1 

69.8 

5 

10 

2 

1 

69.8 

5 

11 

2 

2 

56.0 

6 

12 

2 

2 

54.5 

6 

13 

2 

3 

50.7 

7 

14 

2 

3 

49.3 

7 

15 

2 

4 

63.8 

8 

16 

2 

4 

65.8 

8 

17 

3 

1 

56.6 

9 

18 

3 

1 

57.5 

9 

19 

3 

2 

77.8 

10 

20 

3 

2 

79.2 

10 

21 

3 

3 

69.9 

11 

22 

3 

3 

69.2 

11 

23 

3 

4 

62.1 

12 

24 

3 

4 

64.5 

12 
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Convergence 
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conditionnelle, 52 
definition, 16 
Estimateur 
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convergent, 78 
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courbes, 76 
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Fatou, 55 
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Fischer, information, 75 
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caracteristique, 44 
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definition, 20 
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Gauss-Markov, theoreme, 96 
Gaussien 

vecteur, 57 

Holder, inegalite, 47 
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alternative, 68 
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de Jensen, 55 
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definition, 12, 40 
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Inegalite 
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Beta, 31 
Bernouilli, 23 
binomiale, 23 
binomiale negative, 26 
Cauchy, 29 
du chi-deux, 33, 84 
conditionnelle, 54, 56 
definition, 11, 19 
diffuse, 21 
discrete, 26 
exponentielle, 28 
exponentielle double, 37 
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geometrique (de Pascal), 24 
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de Laplace, 37 
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log-Weibull, 36 
logistique, 32 
marginale, 22 
multinomiale, 26 
normale (gaussienne), 29 
normale tronquee, 33 
de Pareto, 37 
Poisson, 24 
Student, 85 
symetrique, 20, 22 
triangulaire, 35 
uniforme, 27 

de la valeur extreme, 35, 36 
de Weibull, 33 
du tout ou rien, 43 

Matrice 

definie positive, 48 
inversible, 48 
Mesure 

diffuse, 21 
discrete, 21 
Methode des fractiles 
corrigee du biais, 172 
definition, 172 
Minkowski, inegalite, 47 
Modele 

exponentiel 
courbe, 76 
definition, 79 
droit, 76 
lineaire 

definition, 90, 94 
regulier, 75 

a rapport de vraisemblance mono- 
tone, 71 

Moindres carres 

estimateur, 91, 94 
meilleure approximation, 51 
Moment 

d ’inertie du nuage 
des indi vidus, 118 
d’ordre 1, 15 
d’ordre p, 15 
Moyenne 

definition, 16 

Neyman-Pearson, test, 71 
Niveau d’un test, 69 
Norme, 84 
Nuage 
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des individus, voir ACP 
des variables, voir ACP 

P-value, 73 

Pourcentage d’inertie explique par un axe 
(ACP), 123 
Presque surement, 14 
Probability 

conditionnelle, 11 
critique, 73 
definition, 9 
espace, 11 
de transition, 56 
Proposition 

de Slutsky, 63 
Pseudo-inverse, 92 
Pseudo-valeur, 163 
Puissance, 70 

Quasi-integrabilite, 54 

Region 

d’acceptation, 68 
de rejet, 68 
Regression lm^aire, 90 
Regularity, 75 
Replacement, 10 
Residus, 93, 94 
Risque 

de premiere espece, 69 
de seconde espece, 69 

Slutsky, 63 
Somme des carres 

due au modeie, 97 
residuelle, 97 
totale, 97 
totale corrigee, 97 
Sous-population, 10 
Statistique 
fibre, 77 

Student, theoreme, 85 
Symetrie, 20 

Test 

conservatif, 69 
definition, 68 
de Neyman-Pearson, 71 
optimal, 71 
randomise, 69 

uniformement le plus puissant 
(UPP), 70 

de la limite centrale, 64 


de la limite centrale vectorielle, 64 
Theoreme 

de Huygens, 119 
Total, 63 

Total, ensemble, 63 
Transition, probability, 56 
Tribu 

asymptotique, 43 
definition, 19 

UPP, 70 

Variable 

suppiemantaire, 131 
Variable aieatoire 
discrete, 11, 14 
etagee, 15 
gaussienne, 82 
reelle, 14 
Variance, 16 
Vecteur gaussien, 49, 57 
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